`
dyllove98
  • 浏览: 1382078 次
  • 性别: Icon_minigender_1
  • 来自: 济南
博客专栏
73a48ce3-d397-3b94-9f5d-49eb2ab017ab
Eclipse Rcp/R...
浏览量:38325
4322ac12-0ba9-3ac3-a3cf-b2f587fdfd3f
项目管理checkList...
浏览量:78632
4fb6ad91-52a6-307a-9e4f-816b4a7ce416
哲理故事与管理之道
浏览量:131772
社区版块
存档分类
最新评论

lucene in action_index and search

 
阅读更多

在这里给大家来一些关于lucene in action的一些东东

你可以到:http://lucene.apache.org/ 了解更新,更全的关于lucene的信息。

下面我做的demo,分享给大家:

项目结构:

运行Index时,Run Configurations

[两个参数之间有空格]

args[0] = "C:\Users\hongjie\Desktop\hongten_temp\hongten_index";

args[1] = "C:\Users\hongjie\Desktop\hongten_temp\lucene-3.5.0";

运行效果:

运行Searcher时,Run Configurations

[两个参数之间有空格]

args[0] = "C:\Users\hongjie\Desktop\hongten_temp\hongten_index";

args[1] = "cnhances";

运行效果:

============================================================

代码部分:

============================================================

/lucene/src/com/b510/index/Indexer.java

  1 /**
  2  * 
  3  */
  4 package com.b510.index;
  5 
  6 import java.io.File;
  7 import java.io.FileFilter;
  8 import java.io.FileReader;
  9 
 10 import org.apache.lucene.analysis.standard.StandardAnalyzer;
 11 import org.apache.lucene.document.Document;
 12 import org.apache.lucene.document.Field;
 13 import org.apache.lucene.index.IndexWriter;
 14 import org.apache.lucene.store.Directory;
 15 import org.apache.lucene.store.FSDirectory;
 16 import org.apache.lucene.util.Version;
 17 
 18 /**
 19  * 建立索引
 20  * 
 21  * @author hongten(hongtenzone@foxmail.com)<br>
 22  * @date 2013-4-5
 23  */
 24 public class Indexer {
 25 
 26     public static void main(String[] args) throws Exception {
 27         if (args.length != 2) {
 28             throw new IllegalArgumentException("Usage: java " + Indexer.class.getName() + " <index dir><data dir>");
 29         }
 30         // 在指定目录创建索引
 31         String indexDir = args[0];
 32         String dataDir = args[1];
 33 
 34         long start = System.currentTimeMillis();
 35         Indexer index = new Indexer(indexDir);
 36         int numIndexed;
 37         try {
 38             numIndexed = index.index(dataDir, new TextFilesFilter());
 39         } finally {
 40             index.close();
 41         }
 42         long end = System.currentTimeMillis();
 43 
 44         System.out.println("indexing " + numIndexed + " files took " + (end - start) + " millseconds!");
 45     }
 46 
 47     private IndexWriter writer;
 48 
 49     @SuppressWarnings("deprecation")
 50     public Indexer(String indexDir) throws Exception {
 51         Directory dir = FSDirectory.open(new File(indexDir));
 52         // create lucene index writer
 53         writer = new IndexWriter(dir, new StandardAnalyzer(Version.LUCENE_35), true, IndexWriter.MaxFieldLength.UNLIMITED);
 54     }
 55 
 56     /**
 57      * close the IndexWriter
 58      * 
 59      * @throws Exception
 60      */
 61     public void close() throws Exception {
 62         writer.close();
 63     }
 64 
 65     /**
 66      * 返回被索引文件数
 67      * 
 68      * @param dataDir
 69      *            文件目录
 70      * @param filter
 71      * @return
 72      * @throws Exception
 73      */
 74     public int index(String dataDir, FileFilter filter) throws Exception {
 75         File[] files = new File(dataDir).listFiles();
 76 
 77         for (File f : files) {
 78             if (!f.isDirectory() && !f.isHidden() && f.exists() && f.canRead() && (filter == null || filter.accept(f))) {
 79                 indexFile(f);
 80             }
 81         }
 82         // 返回被索引的文档数目
 83         return writer.numDocs();
 84     }
 85 
 86     /**
 87      * 向lucene中添加文档
 88      * 
 89      * @param f
 90      *            文档
 91      * @throws Exception
 92      */
 93     private void indexFile(File f) throws Exception {
 94         System.out.println("Indexing " + f.getCanonicalPath());
 95         Document doc = getDocument(f);
 96         writer.addDocument(doc);
 97     }
 98 
 99     /**
100      * 添加索引
101      * 
102      * @param f
103      *            被索引的文件
104      * @return
105      * @throws Exception
106      */
107     protected Document getDocument(File f) throws Exception {
108         Document doc = new Document();
109         doc.add(new Field("contents", new FileReader(f)));
110         doc.add(new Field("filename", f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED));
111         doc.add(new Field("fullpath", f.getCanonicalPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
112         return doc;
113     }
114 
115     /**
116      * 只索引.txt文件,采用FileFilter
117      * 
118      * @author hongten(hongtenzone@foxmail.com)<br>
119      * @date 2013-4-5
120      */
121     private static class TextFilesFilter implements FileFilter {
122         @Override
123         public boolean accept(File pathname) {
124             return pathname.getName().toLowerCase().endsWith(".txt");
125         }
126     }
127 
128 }

/lucene/src/com/b510/search/Searcher.java

 1 /**
 2  * 
 3  */
 4 package com.b510.search;
 5 
 6 import java.io.File;
 7 import java.io.IOException;
 8 
 9 import org.apache.lucene.analysis.standard.StandardAnalyzer;
10 import org.apache.lucene.document.Document;
11 import org.apache.lucene.queryParser.ParseException;
12 import org.apache.lucene.queryParser.QueryParser;
13 import org.apache.lucene.search.IndexSearcher;
14 import org.apache.lucene.search.Query;
15 import org.apache.lucene.search.ScoreDoc;
16 import org.apache.lucene.search.TopDocs;
17 import org.apache.lucene.store.Directory;
18 import org.apache.lucene.store.FSDirectory;
19 import org.apache.lucene.util.Version;
20 
21 import com.b510.index.Indexer;
22 
23 /**
24  * 搜索功能
25  * @author hongten(hongtenzone@foxmail.com)<br>
26  * @date 2013-4-5
27  */
28 public class Searcher {
29 
30     public static void main(String[] args) throws IllegalArgumentException, IOException, ParseException {
31         if (args.length != 2) {
32             throw new IllegalArgumentException("Usage: java " + Indexer.class.getName() + " <index dir><data dir>");
33         }
34         // 在指定目录创建索引
35         String indexDir = args[0];
36         String q = args[1];
37 
38         search(indexDir, q);
39     }
40 
41     /**
42      * 搜索
43      * @param indexDir 搜索目录
44      * @param q 关键字
45      * @throws IOException
46      * @throws ParseException
47      */
48     public static void search(String indexDir, String q) throws IOException, ParseException {
49         Directory dir = FSDirectory.open(new File(indexDir));
50         IndexSearcher is = new IndexSearcher(dir);
51         
52         QueryParser parser = new QueryParser(Version.LUCENE_35,"contents",new StandardAnalyzer(Version.LUCENE_35));
53         Query query = parser.parse(q);
54         long start = System.currentTimeMillis();
55         TopDocs hits = is.search(query, 10);
56         long end = System.currentTimeMillis();
57         
58         System.out.println("Found "+hits.totalHits + " document(s) (in " + (end - start) +" millsecondes) that matched query '"+ q+"':");
59         
60         for(ScoreDoc scoreDoc : hits.scoreDocs){
61             Document doc = is.doc(scoreDoc.doc);
62             System.out.println(doc.get("fullpath"));
63         }
64         
65         is.close();
66     }
67 }

 

分享到:
评论

相关推荐

    IEC 60364-7-722-2018 低压电气装置.第7-722部分:特殊装置或场所的要求.电动车辆的电源.pdf

    IEC 60364-7-722-2018 低压电气装置.第7-722部分:特殊装置或场所的要求.电动车辆的电源.pdf

    eNSP软件安装及拓扑结构搭建.docx

    、eNSP的安装 1.安装eNSP之前必须先安装以下三个插件: VirtualBox WinPcap Wireshack eNSP作为模拟器主体,需要对应版本的VirtualBox和WinPcap提供虚拟环境,Wireshack用于实验当中测试抓取数据包使用。 安装好这三个插件,只需要点下一步选择好对应的安装位置即可,然后就可以安装eNSP软件了。 eNSP的页面

    vmware虚拟机安装教程

    附件是vmware虚拟机安装教程,文件绿色安全,请大家放心下载,仅供交流学习使用,无任何商业目的!

    大屏网站粒子效果实现方式

    大屏网站粒子效果实现方式

    node-v8.11.3-sunos-x86.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    KingbaseES的jar包

    KingbaseES的jar包

    Python编程基础: 掌握核心概念、语法与技巧,涵盖数据类型、控制结构、函数、模块等,适用于初学者及希望夯实基础的开发者

    "想要快速掌握Python编程的基础知识吗?这个资源是您的最佳选择!它详细介绍了Python编程的基本知识点,包括数据类型、控制结构、函数、模块等内容,让您轻松入门Python编程。 无论您是编程初学者,还是有一定编程基础但希望深入学习Python的开发者,这个资源都适合您。它以通俗易懂的语言,配合实例演示,帮助您更好地理解和掌握Python编程的核心概念和技巧。 这个资源的使用场景非常广泛。您可以在学习Python编程的过程中,将其作为参考资料,随时查阅和巩固知识点。也可以在准备Python面试或考试时,通过这个资源进行复习和提升。此外,如果您是计算机相关专业的学生或教师,这个资源也可以作为教学资料,辅助教学和学习。 这个资源的优势在于它的全面性和实用性。它不仅涵盖了Python编程的基础知识点,还提供了一些实用的编程技巧和经验分享。通过学习这个资源,您将能够更加熟练地使用Python编程,解决实际问题和项目挑战。 如果您还在为找不到好的Python编程学习资源而苦恼,那么这个资源将是您的解决方案。它不仅能够帮助您快速入门Python编程,还能够为您的编程之路提供坚实的支持。还等什么

    聚类分析(108页 PPT).ppt

    聚类分析(108页 PPT)

    径硕科技:B2B企业如何一个人搭建内容营销体系?.pdf

    径硕科技:B2B企业如何一个人搭建内容营销体系?.pdf

    ISO IEC 27001-2022 信息安全、网络安全和隐私保护信息安全管理系统要求.pdf

    ISO IEC 27001-2022 信息安全、网络安全和隐私保护信息安全管理系统要求.pdf

    沿海建模系统 (SMC) 3.0 用户手册

    SMC 3.0 用户手册

    node-v4.4.6-x64.msi

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    node-v8.17.0-linux-ppc64le.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    c语言文件读写操作代码

    C语言文件读写操作是C语言编程中的一个基础且重要的部分,它允许程序与磁盘上的文件进行交互,实现数据的存储和读取。以下是关于C语言文件读写操作代码的500字资源描述: C语言提供了丰富的文件操作函数,如fopen、fclose、fread、fwrite、fscanf、fprintf等,这些函数为开发者提供了灵活的文件读写方式。通过这些函数,开发者可以轻松地打开文件、读取文件内容、写入数据到文件,以及关闭文件。 在C语言中,文件通常被视为字节流,这意味着文件操作是以字节为单位进行的。例如,fread函数可以从文件中读取指定数量的字节,而fwrite函数则可以将数据以字节的形式写入文件。这种操作方式使得C语言文件读写具有高度的灵活性和可移植性。 此外,C语言还支持文本模式和二进制模式两种文件打开方式。在文本模式下,文件操作会考虑平台特定的换行符转换;而在二进制模式下,文件操作则直接按字节进行,不进行任何转换。这使得C语言可以适应不同平台和不同文件类型的需求。 一个典型的C语言文件读写操作代码示例会包括使用fopen函数打开文件、使用fread或fscanf函数读取文件内容、对读取到的

    2022年美赛特等奖论文-2022-2022年E题获奖论文合集.pdf

    大学生,数学建模,美国大学生数学建模竞赛,MCM/ICM,2022年美赛特等奖O奖论文

    node-v9.2.1-linux-arm64.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    2024-2030中国HMI PLC一体机市场现状研究分析与发展前景预测报告.docx

    2024-2030中国HMI PLC一体机市场现状研究分析与发展前景预测报告

    研发运营一体化(Dev0ps)能力成熟度模型 第7部分-组织结构.pdf

    研发运营一体化(Dev0ps)能力成熟度模型 第7部分-组织结构

    一篇关于图像和视频去噪技术的研究论文,它介绍了一种基于稀疏3D变换域的协同滤波方法

    "Image and video denoising by sparse 3D transform-domain collaborative filtering" 是一篇关于图像和视频去噪技术的研究论文,它介绍了一种基于稀疏3D变换域的协同滤波方法。这种方法的核心思想是利用图像或视频中的空间和时间冗余信息来去除噪声

    BS EN 1822-2-2009 第2部分:气溶胶生产、测量设备、颗粒物计数统计.pdf

    BS EN 1822-2-2009 第2部分:气溶胶生产、测量设备、颗粒物计数统计.pdf

Global site tag (gtag.js) - Google Analytics