设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 116|回复: 3

文本挖掘的常用算法示例

[复制链接]
发表于 2019-9-28 16:33:02 | 显示全部楼层 |阅读模式
机器学习在文本挖掘的应用中,受到其语言的复杂性和不规范性影响,其适用的算法也具有多样性,才能得到需要的数据信息。今天为大姐介绍几种常见的文本挖掘算法。
文本预处理算法
除了单词规范化和删除停顿词之外,某些算法还会要求将文本转换为数字形式,以作为矢量或矢量序列。最常用的文本预处理算法有:
1.One-hot encoding,是一种最简单的算法。它将文本中的单词转换为,在i-th位置上具有非零值的N-long向量。其中N是语言字典长度,而i则为该字典中单词的位置。
2.word2vec,也是对单词进行矢量化的一组算法。与One-hot encoding相比,它生成的向量要短得多,并且包含各种实数(并不整数)。word2vec能够给具有相似含义的单词赋予相似的向量。
3.Bag of words,是一种基于单词频率的算法(即:某个单词在文档中出现的次数)。虽然它能够通过向量来描述一般文本,但是它几乎完全忽略了文本的结构。
4.TF-IDF,是一种能够为每个文本形成tf-idf值向量的算法。此处tf-idf值为给定文本中的单词频率,除以整个语料库中这个单词的反向频率。而反向频率则可以通过不同的方法计算出来。所以基本想法是:如果一个词语经常在语言中被使用到,那么就给它分配较低价值的分类(例如:许多前置词,包括“去”、“工作”、“有”、“需要”等都属于此类),同时其反向频率也就比较低。相反,那些罕见的词语当然也就有着较高的反向频率,其分类的价值也就越高。
命名实体识别和关系提取算法
此项工作是:查找特定的术语(如:公司、产品、服务名称等),通过标记来对它们进行分类,进而找出这些实体之间的关系。因此,可能会涉及到如下算法:
1.隐马尔可夫模型(Hidden Markov model,HMM),它将统计模型表示为定向图。
2.条件随机场(Conditional Random Field,CRF)也是一个统计模型,但是它并不使用定向图。
3.神经网络(Neural networks),其中LSTM能够表示上下文,因为它能够时序地(非重复地)通过处理过程,来存储上下文数据。CNN则根据所发现的基本特征模式来提取数据。
4.一般机器学习方法。如果系统使用的是“滑动窗口(sliding window)”技术,那么常规的机器学习方法则包括:逻辑回归、支持向量机、朴素贝叶斯分类器、决策树和其他需要输入具有固定特征列表的方法。当然,此类方法并不考虑窗口之外的上下文。因此,如果相关的单词远离窗口长度的范围,或是对于整个文本块有一些其他类型的评论(例如,产品描述的负面评论)时,这些信息则会被忽略,进而可能产生不准确的结果。
分类和主题建模算法
此项任务是对已处理的文档,产生包括文档类型或主题在内的简单描述。因此,可能会涉及到如下算法:
1.潜在狄利克雷分配(Latent Dirichlet Allocation,LDA),是一种基于狄利克雷(Dirichlet)分布的统计模型。它能将文本视为不同主题的组合。
2.潜在语义分析(Latent Semantic Analysis,LSA),是一种将语料库表示为术语文档矩阵,通过将其分解,以定义不同文档主题的方法。
3.主题模型的加法正则化(Additive Regularization of Topic Models,ARTM),是将现有的统计模型与正则化相结合,进而更好地分析文本结构。
4.使用bag of words、tf-idf 和其他算法的结果,作为输入的通用机器学习方法。
算法的性能会受到其作业不同的影响,文本系统在构建过程中可以尝试多种算法结构,或者将不同技术的结果综合起来,完成文本挖掘的过程。

点评

海!外直播 t.cn/RxmJTRS 禁闻视频 t.cn/RJvO78a 勃烈日涅夫当上苏共总书记后,将乡下老母接到莫斯科.得意洋洋地向她展示豪华别墅,高级汽车,高档...老太太说:"儿子啊,这一切都很好,但是共产党来了你怎么办?"   发表于 2019-9-29 16:17
回复

使用道具 举报

发表于 2019-9-28 16:33:05 | 显示全部楼层
报告!别开枪,我路过来看看的。。。
回复 支持 反对

使用道具 举报

发表于 4 天前 | 显示全部楼层
TF-IDF,是一种能够为每个文本形成tf-idf值向量的算法。重庆时时彩 此处tf-idf值为给定文本中的单词频率,除以整个语料库中这个单词的反向频率。而反向频率则可以通过不同的方法计算出来。重庆欢乐生肖 所以基本想法是:如果一个词语经常在语言中被使用到,那么就给它分配较低价值的分类(例如:许多前置词,包括“去”、“工作”、“有”、“需要”等都属于此类),北京pk10 同时其反向频率也就比较低。相反,那些罕见的词语当然也就有着较高的反向频率,其分类的价值也就越高
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4 京公海网安备110108001289号  

GMT+8, 2019-10-16 12:58 , Processed in 0.286130 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表