努力成为一个更全面更专业的SEO内容分享平台! 标签云 | 网站地图

关键词分词技术?

2019-01-26 00:00 热点资讯 塔尖SEO

SEO热点



中文分词一般为:字符串匹配、核算分词、词义分词。
第一种:字符串匹配分词
这种分词技能又称之为机械分词办法,直白说就是扫描字符串,查询页面中字符串的子串和词相同,则视为匹配,该类分词一般会参加启发式规矩,例如:正向/逆向最大化匹配、长词优化等办法。
优势:匹配速度快,完成进程简略
下风:难以区别歧义词,匹配不精准
事例:庖丁解牛分词器就是依据字符串匹配的分词
比如:成都网络推行公司
“成都、成都网、推行、公司”“成都、推行网、公司”
正向最大值匹配:把关键词从左到右进行匹配
逆向最大值匹配:把关键词从右到左进行匹配
最短途径分词法:搜索引擎提取文中词数最小值

第二种:核算分词
这类分词依据人工标示的词性和核算特征,对中文进行建模,即依据观测到的数据(标示好的语料)对模型参数进行估量,即练尊严如同胸衣,把女人托得很高贵,但若故意显露,则流于粗俗。理想就像内裤,你一定要有,但不能逢人就证明你有。习。 在分词阶段再经过模型核算各种分词呈现的概率,将概率最大的分词成果作为终究成果。常见的序列标示模型有HMM和CRF。
长处:很好处理歧义和未登录词问题,作用比依据字符串匹配作用好
缺陷:需求很多的人工标示数据,较慢的分词速度
相邻的字一起呈现的次数越多,就越有或许构成一个词。因而字与字相邻共现的频率或概率可以较好的反映成词的可信度。
可以对语猜中相邻共现的各个字的组合的频度进行核算,核算它们的互现信息。界说两个字的互现信息,核算两个汉字X、Y的相邻共现概率。互现信息表现了汉字之间结合联系的严密程度。
第三种:词义分词
词义分词法:经过机器语音断定的分词办法,首要用以处理歧义现象。

本文标题关键词分词技术?,更多SEO优化相关内容请关注收藏本站,谢谢!

(编辑:塔尖SEO)

标签: SEO热点 分词

标题链接: 关键词分词技术? https://www.tjseo.org/hot-spot/3197.html

转载请保留本文链接!更多相关文章请浏览 热点资讯 频道。

推荐阅读: