Filed under: 开发编程 |
Posted on June 10th, 2009 by 李 方进
最近在做的一个小项目里需要对中文内容的相似度进行判断,PHP中是有现成的函数的——similar_text。
google出来的大量结果反馈说similar_text函数对中文字符串相似度的判断不是很好。
我做了一个实验:
- $b='海关罚没';
- $a='海==关==罚==没';
- similar_text($b,$a,$p);
- echo $p;
输出的结果为72.7272727273(这里是百分比),72.73%的相似度,这个结果已经很理想了。
我的PHP版本为5.2.9,不知道是否因为这个最新的版本提高了similar_text函数对中文的处理能力。
January 3rd, 2010 at 8:18 pm
这个和你的字符编码有关系, 如果是gbk,误伤会很大
January 4th, 2010 at 10:17 am
gbk这个半吊子字符集我是坚决不用的,只用utf8,在utf8下这个函数运作的很好