英文词组识别提取

想法来源于在做关键词提取时遇到的一个问题 英文分词时通常是通过空格进行分割,如Hello World会被拆分hello和world,但实际上我需要提取hello world 整个词 google时找到一个RAKE算法,是针对关键词提取算法的,网上评论还是不错,但由于这边实际情况存在中英混合和大量的专业词汇,而且大多数情况下并不是一个句子,所以效果不是那么好,如果是全英文文档应该会好得多,所

- 阅读全文 -

php实现BMM分词算法

BMM算法,逆向最大匹配法(backward maximum matching method, BMM),和FMM一样,都是基于词表的分词方法。与FMM不同的是,BMM是对于一段文本从右至左进行扫描,利用词典里面的词汇切分出长度最长的词,也就是说文本扫描的方式刚好与FMM相反。分词效果相对FMM来说,BMM算法更好。以下是简单实现<?php class BMM { //简单定义一

- 阅读全文 -

php实现FMM分词算法

FMM算法,即正向最大匹配法(forward maximum matching method, FMM),是基于词表的分词方法。对于一段文本从左至右进行扫描,利用词典里面的词汇切分出长度最长的词,单词的颗粒度越大,所能表示的含义越确切。以下简单实现<?php class FMM { //简单定义一个词典数组 private $dict = []; private $

- 阅读全文 -