1.1 Lucene工作流程

2016-02-16 22:33:40 5,599 1

Lucene不是一个完整的应用，其只是提供了一套API，让我们可以往索引库中添加索引，并可以进行高效的查询。Lucene的查询主要应用在模糊查询上。下图演示了Lucene的工作流程：

在该图中，绿色加深的地方由Lucene完成，其他灰色部分用开发者完成。我们从下到上来介绍这张图。

创建索引过程

1、Raw Content-->Acquire Content

这个过程实际上是获取需要建立索引的原始内容。Lucene提供了一套API帮助我们对数据建立索引，但是数据的来源Lucene是不知道的。所以原始内容要由程序员来获取。原始数据的来源可以是用户在web控制台界面上添加的一条记录，例如我们通过博客网站来发表一篇博客；也可以是网络上的任何资源，例如百度爬虫会抓取互联网上数以千万计的网页内容来建立索引；也可以是本地文件。

2、Build Document

Lucene只能针对纯文本内容建立索引，意味着针对PDF、Word等格式的文档，我们必须提取出其文本内容。即使对于html和xml格式的数据，我们也要进行文本提取，因为html标签是不需要建立索引的，只有这些文件中的内容才是检索所需要的。

Build Document过程实际上是提取出我们建立索引的数据的必要的文本信息。

Document有很多字段Field，每个字段都有一个name和value。例如我们有一个文章Article实体，有title字段和content字段。我们对Article实体建立索引，我们希望用户在搜索的时候，不论是title还是content只要包含用户检索的内容，我们都可以返回这条记录。那么我们就要将Article实体转换成Lucene认识的Document对象。

要注意的是，Lucene是根据原始内容数据内容建立索引，但是我们需要先将原始数据内容转化为一个Document对象，然后才能进行索引。原因在于，java是面向对象的，要存储的数据类型有很多，而且可能还有很多用户自定义的数据类型。对于不同的数据类型，建立索引的要求是不同的，因此Lucene提供一个API Document，我们在建立索引之间将这些数据全部转为Document对象，Lucene就可以进行统一的管理，而不需要针对每一种数据类型都需要进行处理。

3、Analyze Document-->Index Document

当我们构建好Document之后，Lucene会对Document中的每个字段进行分词(Analyze)处理，实际上是一种倒叙索引。例如，我们创建的Article实体中content为：“中国的首都是北京....”，Lucene会将内容进行分词，那么这段话可能会被分为:"中国"、"首都"、"北京"等。Lucene建立索引实际上是对分词后的结果建立索引。而用户在搜索的时候，我们也会进行分词处理，如果用户搜索的是“北京以前叫燕京”,分词会包含"北京"，因此这条记录也可以检索出来。

搜索过程：

在使用Lucene进行搜索的时候，搜索的关键字依然要由开发者提供给Lucene。搜索关键字的来源可以是用户在网页上输入的搜索内容。

在获取到用户的搜索关键字之后，我们会将搜索关键字构建成一个Query对象。原因是我们要对用户输入的搜索内容也进行分词，然后才在索引库中进行搜索。

最后我们可能要将搜索结果进行一些修饰(Render)，例如高亮实现匹配上的关键字。

管理接口

所谓管理接口，是Lucene提供好了一套API让我们来管理索引库中的文件。通过Lucene提供的管理接口，我们可以优化Lucene的性能。不过Lucene本身并没有开发好一个完整的应用来让我们使用，只是提供了一套API。

分析接口

分析接口的作用，主要是让我们了解Lucene的索引库中的内容，以及统计命中率的一些操作。

上一篇：1.0 Lucene简介下一篇：2.0 入门案例及详解

欢迎转载,请注明出处!!!