Month: May 2007

中英文混合停用词表 (stop word list)

前一段时间做一个中文全文检索的东东需要一个中文的停用词表 (stopwords list), 网上搜索了半天找到了一些但都不是很满意,于是干脆自己根据词性加手工筛选,再加上英文的还有网上找到的, 合在一起作了一个新的stopwords文件。

有需要的朋友可以从这里下载:

http://www.smartpeer.net/files/stopwords-utf8.txt

注意这是utf-8编码的,下载后根据自己的需要转成gbk/big5或其他编码。


Read More »

[龟坛新功能]"相关帖子"功能初步推出

查看一个帖子时下面会列出最多10条相关的帖子.

初步推出, 相关帖子准确度还需提高–我们会继续做tuning和改进.

现在是基于对帖子标题进行中文分词基础上的全文检索. 以后等龟坛Tagging功能做好后改用帖子的关键字来匹配准确度会大得多.

欢迎大家提出意见和建议.

我做了“相关主题”功能,供大家先内部测试一下

在 http://ttest.haiguinet.com

注:
1. ttest.com的默认界面是我们最近开发的新风格,与production默认的cnphpbbice不一样。准备将来推行到production; 但我个人对这个新界面风格不是很满意,认为还需要不少改进。如果你想看到production风格,登陆进去就可以了。

2. 打开一个帖子,“相关主题“在每个帖子的下面。现在样子比较土,位置和页面布局也不对,这个需要大家多提建议。

3。目前显示10条相关主题,”10条“这个数字是可调整的。

4。 搜索结果有时不太准确,这跟我们使用的词库和stopwords list 有关,这是我这一阵到处找这些东西的原因。

5。 下一步计划之一是论坛加上tagging功能,然后”相关主题“将会按用户自己提交的关键字匹配,准确度会高得多。(现在是通过将帖子标题进行中文分词全文检索);


Read More »