首页/技术开发/内容

Java XML图文详细教程(第5章)

技术开发2024-06-12 阅读()
来源:http://d23xapp2.cn.ibm.com/developerWorks/education/xml/xmljava/tutorial/xmljava-1-1.html

第五章 解析器高级功能


概览

我们已经讨论了使用一个 XML 解析器来处理 XML 文档的基础。在本章节,我们将探讨一些高级概念。

首先,我们将从头构建一棵 DOM 树。换而言之,我们将不需要一个 XML 源文件来创建一个 Document 对象。

然后,我们将向您显示如何使用解析器来处理包含在一个字符串的 XML 文档。

接着,我们将向您显示如何操作一棵 DOM 树。我们将对我们示例的 XML 文档操作并对其诗句排序。

最后,我们将展示如何利用如 DOM 和 SAX 标准的接口使得解析器的更改十分容易。我们将向您展示两个使用不同 XML 解析器的示例应用。而其中 DOM 和 SAX 代码没有改变。

从头构建一棵 DOM 树

有时您想要从头构建一棵 DOM 树。要完成这个任务,您创建一个 Document 对象,然后对其添加不同的 Node 对象。

您可运行 java domBuilder 来看一个从头构建一棵 DOM 树的示例应用。该应用重新创建了通过对 sonnet.xml 最初解析而构建出的 DOM 树(但不再创建空格符)。

我们首先创建一个 DocumentImpl 类的实例。此类实现 DOM 定义的 Document 接口。
Document doc = (Document)Class.
forName("com.ibm.xml.dom.DocumentImpl").
newInstance();


domBuilder.java (代码请参考附录2)

这段代码不使用一个 XML 文档来构建一个 DOM 树。当树被构建完后,该代码将树的内容输出到标准输出。

...
<address>
<name>
<title>Mrs.</title>
<first-name>Mary</first-name>
<last-name>McGoon</last-name>
</name>
<street>1401 Main Street</street>
<city>Anytown</city>
<state>NC</state>
<zip>34829</zip>
</address>
<address>
<name>
...

添加 Node 到我们的 Document

现在我们有自己的 Document 对象了,我们开始创建 Node。我们第一个要创建的 Node 是一个 <sonnet> 元素。我们将创建所有的 Node,然后将每个节点添加到其对应的父母。

注意我们使用 setAttribute 方法来对<sonnet>元素设置其 type 属性的值。
Element root = doc.
createElement("sonnet");
root.setAttribute("type",
h"Shakespearean");
构建您的文档结构

当我们开始构建我们的 DOM 树时,我们将需要构建我们文档的结构。要完成它,我们将需要恰当地使用 appendChild 方法。我们将创建 <author> 元素,然后创建在其下的其它元素,接着使用 appendChild 方法将所有这些元素添加到正确的父母。

注意 createElement 是属于 Document 类的一个方法。我们的 Document 对象拥有我们在此创建的所有元素。

最终,注意到我们为所有的元素内容创建 Text 节点。Text 节点是元素的子女,而 Text 节点的父母则被添加到对应的父母下。

Element author =
doc.createElement("author");

Element lastName = doc.
createElement("last-name");
lastName.appendChild(doc.
createTextNode("Shakespeare"));
author.appendChild(lastName);

完成我们的 DOM 树

一旦我们对 <sonnet> 元素添加了所有内容,我们需要将它添加到 Document 对象。我们最后一次调用 appendChild 方法,这次是将子元素添加到 Document 对象上。

记住一个 XML 文档只能有一个根(root)元素;如果您要向Document添加多个根元素appendChild 将抛出一个异常。

当我们构建好 DOM 树后,我们构建一个 domBuilder 对象,然后调用它的 printDOMTree 方法来打印 DOM 树。
Element line14 = doc.
createElement("line");
line14.appendChild(doc.
createTextNode("As any ..."));
text.appendChild(line14);
root.appendChild(text);

doc.appendChild(root);

domBuilder db = new domBuilder();
db.printDOMTree(doc);

使用 DOM 对象来避免解析

您可以想象一个 DOM Document 对象作为一个 XML 文档的编译形式。如果您正使用 XML 来在不同方之间传递数据,您将可以通过接受和发送 DOM 对象而不是 XML 源数据来节约时间。

这是最常见的原因您为何需要从头来构建一个 DOM 树。

最坏情况下,您需要在您发送数据前从一棵 DOM 树创建出 XML 源数据,然后在您接受 XML 数据时创建出一棵 DOM 树。直接使用 DOM 对象将节约大量时间。

一个警告:要注意一个 DOM 对象可能比 XML 源数据要大很多。如果您要在一个十分缓慢的连接线路上传递数据,发送较小的 XML 源数据而重新解析数据要比传递大数据更有效。

解析一个 XML 字符串

很有可能您需要解析一个 XML 字符串。IBM 的 XML4J 解析器支持这个功能,尽管您需要将您的字符串转换成一个 InputSource 对象。

第一步是从您的字符串中创建一个 StringReader 对象。一旦完成此步,您可以从 StringReader 创建一个 InputSource 对象。

您可运行 java parseString 来查看代码的运行结果。在示例应用中,XML 字符串是写死的(hardcoded);有许多种方法让您从一个用户或其它机器获得 XML 输入。有了这个技术,您就不再需要将 XML 文档输出到一个文件系统来解析它了。

parseString ps = new parseString();
StringReader sr =
new StringReader("<?xml version=\"1.0\"?>
<a>AlphaBravo...");
InputSource iSrc = new InputSource(sr);
ps.parseAndPrint(iSrc);

parseString.java (参附录2)

这段代码展示了如何解析一个包含 XML 文档的字符串。



排列在一棵 DOM 树中的 Node

为了介绍您如何改变一棵 DOM 树的结构,我们将修改我们的 DOM 示例来排列十四行诗的 <line> 元素。有多种 DOM 方法可以用来在 DOM 树中搬移节点。

要查看代码的结果,运行 java domSorter sonnet.xml。它并不会改进诗的韵律,但它真确地排列了 <line> 元素。

要开始排列工作,我们将使用 getElementsByTagName 方法来提取在文档中的所有 <line> 元素。该方法节约了我们编写代码来遍历整个树的开销。

if (doc != null)
{
sortLines(doc);
printDOMTree(doc);
}
...
public void sortLines(Document doc)
{
NodeList theLines =
doc.getDocumentElement().
getElementsByTagName("line");
...

domSorter.java (参附录2)

这段代码在 XML 文档中查找所有的 <line> 元素,然后排序。它展示了如何操作一个 DOM 树。



提取我们的 <line> 文本

为了简化代码,我们创建一个 helper 功能,getTextFromLine,用来提取包含在一对 <line> 元素中的文本。它简单地找到 <line> 元素的第一个子女,如果其是一个 Text 节点就返回其文本。

该方法返回一个 Java String 因此我们的排序过程可以使用 String.compareTo 方法来决定排序的次序。

该段代码实际上应该检查 <line> 所有的子女,因为它们可能包含实体(entity)引用 (例如实体 &miss; 可能替代了文本 "mistress")。我们将把这个改进作为读者的一个练习。

public String getTextFromLine(Node
lineElement)
{
StringBuffer returnString =
new StringBuffer();
if (lineElement.getNodeName().
equals("line"))
{
NodeList kids = lineElement.
getChildNodes();
if (kids != null)
if (kids.item(0).getNodeType() ==
Node.TEXT_NODE)
returnString.append(kids.item(0).
getNodeValue());
}
else
returnString.setLength(0);

return new String(returnString);
}

文本排序

现在我们有能力从一个给定的 <line> 元素获取文本,我们可以开始排列数据了。由于我们只有 14 个元素,我们将使用冒泡排序。

冒泡排序算法是比较两个相邻数据值,然后如果它们次序不对就交换它们。要完成交换,我们使用 getParentNode 和 insertBefore 方法。

getParentNode 返回任意 Node 的父母;我们使用这个方法来获得当前 <line> 的父母 (文档的一个 <lines> 元素使用 sonnet DTD)。

insertBefore(nodeA, nodeB) 在 nodeB 前插入 nodeA 到 DOM 树中。insertBefore 最重要的特性是如果 nodeA 已经存在于 DOM 树中了,它在插入 nodeB 前将删除该节点。
public void sortLines(Document doc)
{
NodeList theLines =
doc.getDocumentElement().
getElementsByTagName("line");
if (theLines != null)
{
int len = theLines.getLength();
for (int i=0; i < len; i++)
for (int j=0; j < (len-1-i); j++)
if (getTextFromLine(
theLines.item(j)).
compareTo(getTextFromLine(
theLines.item(j+1))) > 0)
theLines.item(j).
getParentNode().insertBefore(
theLines.item(j+1),
theLines.item(j));
}
}

用来操作树的有用的 DOM 方法

除insertBefore 之外,还有其它的 DOM 方法可用来操作树。

parentNode.appendChild(newChild)
将一个节点作为给定父母节点的最后子女添加。调用 parentNode.insertBefore(newChild, null) 完成同样功能。
parentNode.replaceChild(newChild, oldChild)
将 oldChild 用 newChild 来取代。节点 oldChild 必须是 parentNode 的子女。
parentNode.removeChild(oldChild)
将 oldChild 从 parentNode 下删除。

parentNode.appendChild(newChild);
...
parentNode.insertBefore(newChild,
oldChild);
...
parentNode.replaceChild(newChild,
oldChild);
...
parentNode.removeChild(oldChild);
...

关于树操作还需注意的事项

如果您需要删除一个给定节点的所有子女,这要比看上去难多了。这两段在左边的示例代码看起来可以完成任务。但是,在第二个才能完成。第一个示例代码由于 kid 的实例数据在 removeChild(kid) 被调用后就改变了而无法完成任务。

换而言之,for 循环删除了 kid,第一个子女,然后检查 kid.getNextSibling 是否为 null 。由于 kid 刚被删除,它不再有任何同胞了,因此 kid.getNextSibling 是 null。 for 循环只会运行一次。不论 node 有一个或几千个子女,第一段示例代码只是删除第一个子女。要使用第二段示例代码来删除所有的子节点。
/** Doesn't work **/
for (Node kid = node.getFirstChild();
kid != null;
kid = kid.getNextSibling())
node.removeChild(kid);

/** Does work **/
while (node.hasChildNodes())
node.removeChild(node.getFirstChild());


使用另一个DOM 解析器

尽管我们想象不出一个您为何要改换解析器的理由,您可以使用非 XML4J 的解析器来解析您的 XML 文档。如果您查看t domTwo.java 的代码,您将看到更换到 Sun 的 XML 解析器只需要两个修改。

首先,我们必须载入(import) Sun 公司的类。这很简单。我们要修改的只是创建 Parser 对象的代码。如您所见,Sun 的解析器构建过程比较复杂,但余下的代码不用修改了。所有的 DOM 代码不需要任何的修改。

最终,在 domTwo 的不同之处是命令行格式。出于某些原因,Sun 的解析器不能用常用的方法来解析文件名。如果您运行 java domTwo file:///d:/sonnet.xml (当然根据您的系统修改 file URI),您将获得 domOne 的相同结果。

import com.sun.xml.parser.Parser;
import
com.sun.xml.tree.XmlDocumentBuilder;

...

XmlDocumentBuilder builder =
new XmlDocumentBuilder();
Parser parser =
new com.sun.xml.parser.Parser();
parser.setDocumentHandler(builder);
builder.setParser(parser);
parser.parse(uri);
doc = builder.getDocument();


domTwo.java (参见附录2)

这段代码等同于 domOne.java,但它使用 Sun 公司的 XML 解析器而不是 IBM 的。它展示了 DOM 接口的可移植性。



使用一个不同的 SAX 解析器

我们也编写了 saxTwo.java 来展示如何使用 Sun 公司的 SAX 解析器。与 domTwo 类似,我们有两个修改之处。第一个是载入(import) Sun 的 Resolver 类而不是 IBM 的 SAXParser 类。

我们需要修改创建 Parser 对象的代码,然后我们需要根据我们输入的 URI 创建一个 InputSource 对象。我们要修改的只是创建 parser 的代码需要被包含在 try 代码段中以捕获当我们创建 Parser 对象时可能产生的异常。

import com.sun.xml.parser.Resolver;
...

try
{
Parser parser =
ParserFactory.makeParser();
parser.setDocumentHandler(this);
parser.setErrorHandler(this);
parser.parse(Resolver.
createInputSource(new File(uri)));
}

saxTwo.java (见附录2)

这段代码等同于 saxOne.java,但它使用 Sun 公司的 XML 解析器而不是 IBM 的。它展示了 SAX 接口的可移植性。


总结

在本章节,我们介绍了一些使用 XML 解析器的高级编程技巧。我们展现了如何直接生成 DOM 树,如何解析字符串而不是文件,如何在一棵 XML 树中移动元素以及如何改变解析器而不用影响 DOM 和 SAX 的代码。

希望您喜欢本教程!

这就是本教程的所有内容了。 我们讨论了 XML 应用的基本架构,而且我们也介绍了您如何处理 XML 文档。以后的教程将介绍构建 XML 应用更多的细节,包括:

使用可视工具来构建 XML 应用
将一个 XML 文档从一种形式转换到另一种
为最终用户或其他进程创建接口,及对后端存储数据的接口
要获得更多信息

如果您想了解更多的 XML 知识,可访问 developerWorks 的 XML 专区。这个站点有示例代码、其它的教程、关于 XML 标准的信息以及其它内容。

最后,我们很愿意听取您的意见!我们设计 developerWorks 是成为开发人员的资源。如果您有任何评价、建议或抱怨,请让我们知道。

谢谢,---Doug Tidwell 或 developerWorks 中国站点!



……

相关阅读