`
myhongkongzhen
  • 浏览: 93875 次
  • 性别: Icon_minigender_2
  • 来自: 广州
社区版块
存档分类
最新评论

nutch搜索引擎windows版本,包含中文分词技术

    博客分类:
  • J2EE
阅读更多

2009年5月5日      星期二    天气晴

 

        第一次写博客,希望自己的这点技术可以帮到新人,也可以让高手提点一下吧。

 

        公司项目要做一个搜索引擎的,以前没有接触过,既然公司有了这样的需求,不会也要迎着头皮上了,2月份接手,中间停了半个月,三月份继续,满打满算的有两个月了吧,从不懂搜索引擎到现在算是有些小成就了吧。

 

        公司交任务时让我用nutch做,其实我也不知道用什么,不过既然说了nutch那就看看吧,网上搜资料,===现在越来越发现,自己离不开网络了,离不开google了,只要有不懂的,不会的,不知道的,google一下,什么资料都有了。===不过网上nutch的资料也不是很多,尤其是做国内的项目,中文分词也是一个比较麻烦的事情,反正是网上搜资料,找分词插件,有IKAnalyzer.jar,庖丁,。。。找了几个,最后还是决定用IKAnlyzer.jar了,在这里要感谢原作者把源代码共享了。

 

 

        经过不断的实验,测试,最终修改IKAnlyzer源代码,使其可以自定义关键字字典了,也就是可以根据自己所属的行业,将行业关键字作为字典来检索了,由于我作的公安项目的,所以mykeywords里装的都是公安有关的关键字。

 

       修改了nutch的源代码,使其可以在一个定时线程中运行,我定的是每天晚上1点钟抓取网页,也许这样太频繁了,不过,我也不知道要定义多长时间更新索引,就索性定位每天一次了,反正一个bat文件就和tomcat一样开了,就放到那里让他自己运行着就行了。

 

 

       在网上查nutch资料时发现好多教程,博客,都是千篇一律,就连定义的属性都一样,可没一个都写着原创,,真不可思议,不过我厌恶的是我要查资料,在google里总是出现这样url不同,但内容相同的东东,让我的查询资料有了不少的麻烦,而且查到的也不能运行,总是有些小BUG,不知道发帖的人有没有自己测试,还是直接抄别人的就发到自己的博客上了,,晕死了,,,

 

       这次修改nutch源代码,实现了可以在windows机下直接运行,也不用写那么多脚本了,麻烦,还总是出错,就一个bat就行了。

 

nutchcrawlForWindows

 

 

nutchcrawlForWindows     

 

 

 nutchcrawlForWindows

 

 

 

nutchcrawlForWindows

 

 

==================我是分割线=====================

  

 把项目成品发上来,,直接联系我所要也可以,,,本文章在我的csdn博客中也又发表,均为原创,由于资源大小限制,请到我的csdn博客下载资源:http://blog.csdn.net/myhongkongzhen/archive/2009/05/05/4150750.aspx

搜索资源名:

nutch搜索引擎windows版本,运行bat文件即可 

 

http://download.csdn.net/source/1351580修改版part1

http://download.csdn.net/source/1351677 修改版part2

http://download.csdn.net/source/1351721修改版part3

 一同下载

 

 

      如果大家有什么不明白的地方,可以联系我qq511134962

      msn:myhongkongzhen@gmail.com

 

 

      我试验了两台机,可以直接运行,如果下载下来不能直接运行,也请联系我,,一般是没有问题的,,

 

 

 

 

  • 大小: 10.8 KB
  • 大小: 26 KB
  • 大小: 23 KB
  • 大小: 43.2 KB
6
1
分享到:
评论

相关推荐

    nutch搜索引擎windows版本修改版

    nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...

    nutch搜索引擎windows版本part1

    nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...

    nutch搜索引擎windows版本part2

    nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...

    nutch搜索引擎windows版本修改版part2

    nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...

    nutch搜索引擎windows版本修改版part3

    nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...

    Nutch搜索引擎(1-5期)

    Nutch搜索引擎·Nutch简介及安装(第1期) Nutch搜索引擎·Solr简介及安装(第2期) Nutch搜索引擎·Nutch简单应用(第3期) Nutch搜索引擎·Eclipse开发配置(第4期) Nutch搜索引擎·Nutch浅入分析(第5期)

    Lucene+Nutch搜索引擎开发

    Lucene+Nutch搜索引擎开发

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    利用Nutch和IKanalyzer构造中文分词搜索引擎

    Lucene+nutch搜索引擎开发.part1.rar

    Lucene nutch 搜索引擎开发 Part1

    Lucene+nutch搜索引擎开发

    完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。

    Lucene nutch 搜索引擎 开发 实例 源码

    Lucene nutch 搜索引擎 开发 实例 源码 里面包含了Lucene的使用源码 以及nutch使用的源码 还有spider的使用源码 例子的注释比较详细~适合初学者

    Lucene+Nutch搜索引擎开发.王学松源代码

    licene 实例代码 nutch实例代码 lucene+nutch搜索引擎开发实例代码(王学松版)

    lucene+nutch搜索引擎开发源码1

    lucene+nutch搜索引擎开发一书源码第一部分,因为源码太大,所以分两部分。

    Lucene.Nutch搜索引擎开发

    学习Lucene和Nutch的入门书籍,学习搜索引擎开发值得一看的书籍

    Lucene+nutch搜索引擎开发 源代码

    《Lucene+nutch搜索引擎开发》书附带的源代码

    Nutch搜索引擎的页面排序修改方法研究.kdh

    Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改...

    Lucene+nutch搜索引擎开发(全本2-1)

    Lucene+nutch搜索引擎开发(全本2-1),本电子书共两部分

    Lucene+nutch搜索引擎开发(全本2-2)

    Lucene+nutch搜索引擎开发(全本2-2),本电子书共两部分

    基于lucene和nutch的开源搜索引擎资料集合

    其中内容均为前段时间...中文搜索引擎技术揭密.doc 九大开源搜索引擎介绍.txt 基于Nutch的搜索引擎技术.pdf 基于开源工具搭建小型搜索引擎.pdf 整合开源工具的小型搜索引擎构建.pdf 用_Hadoop_进行分布式并行编程.doc

    基于Nutch中文分词的研究与实现

    作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...

Global site tag (gtag.js) - Google Analytics