前一段时间做一个中文全文检索的东东需要一个中文的停用词表 (stopwords list), 网上搜索了半天找到了一些但都不是很满意,于是干脆自己根据词性加手工筛选,再加上英文的还有网上找到的, 合在一起作了一个新的stopwords文件。

有需要的朋友可以从这里下载:

http://www.smartpeer.net/files/stopwords-utf8.txt

注意这是utf-8编码的,下载后根据自己的需要转成gbk/big5或其他编码。