首页->FAQ->显示文章

Google
 

我可以用Lucene抓取我的网站,或者互联网其他网站的内容么?

译自:原文地址

不行。Lucene不知道如何访问外部文档,也不知道如何从HTML或者其他文档格式的内容中抽取链接。Lucene专注于索引和搜索,力图把这些做到最好。但是,你可以有一些开源的Java爬虫可供选择。regain是一个开源工具,可以抓取网站的内容,把它们保存在Lucene索引内,并提供一个web的搜索接口。参看nutch,这是一个基于Lucene的强大的开源搜索引擎系统。

 

所属分类: [lucene] [Java]
tag: nutch, regain, 抓取, 爬虫,

tinyfool发布于2009年10月29日 10:10