similar_text函数的误区

Filed under: 开发编程 |
Posted on

最近在做的一个小项目里需要对中文内容的相似度进行判断,PHP中是有现成的函数的——similar_text。

google出来的大量结果反馈说similar_text函数对中文字符串相似度的判断不是很好。

我做了一个实验:

  1. $b='海关罚没';
  2. $a='海==关==罚==没';
  3. similar_text($b,$a,$p);
  4. echo $p;

输出的结果为72.7272727273(这里是百分比),72.73%的相似度,这个结果已经很理想了。

我的PHP版本为5.2.9,不知道是否因为这个最新的版本提高了similar_text函数对中文的处理能力。

相关文章

Tags :
Trackback url : u can trackback from your own site
分享到新浪微博

2 Responses to “similar_text函数的误区”

  1. ...... laruence Says:

    这个和你的字符编码有关系, 如果是gbk,误伤会很大

  2. ...... 李 方进 Says:

    gbk这个半吊子字符集我是坚决不用的,只用utf8,在utf8下这个函数运作的很好

Leave a Reply