译自:原文地址
不行。Lucene不知道如何访问外部文档,也不知道如何从HTML或者其他文档格式的内容中抽取链接。Lucene专注于索引和搜索,力图把这些做到最好。但是,你可以有一些开源的Java爬虫可供选择。regain是一个开源工具,可以抓取网站的内容,把它们保存在Lucene索引内,并提供一个web的搜索接口。参看nutch,这是一个基于Lucene的强大的开源搜索引擎系统。
所属分类:
[lucene]
[Java]
tag:
nutch,
regain,
抓取,
爬虫,
tinyfool发布于2009年10月29日 10:10