设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 67|回复: 1

文本挖掘实施过程中的信息搜索问题

[复制链接]
发表于 7 天前 | 显示全部楼层 |阅读模式

最常见的文本挖掘任务之一莫过于:搜索相关文档,并从中提取信息。那么随着数据量的不断增加,该任务的自动化程度就显得尤为重要。执行此类任务的典型系统一般由两部分组成:
文档收集和标准化,文档分类和分析。下面让我们详解这两个部分。
1.文档收集和标准化
此阶段的目标是:
持续收集和提取文本的结构化数据。
收集文档的元数据(包括创建日期、标题等)。
标准化文档的文本和元数据。
由于数据的来源五花八门,而且收集的方法也是灵活多样,因此在上传之前,我们有时需要使用格式转换器,来处置好目标文档的格式。下面是一些具体的数据收集与准备任务:
通过对源文档的扫描,来收集数据
在这种情况下,系统将文本分成多个部分与段落。通过PDF或DJVU文档的方式收集数据
这些文档的格式,虽然比较适合用来查看那些格式化好的文档,但是不适合被应用来存储结构化的数据。PDF与DJVU文件虽然能够存储符号和单词的位置,以便于显示和用户的阅读,但这些文件并没有任何的语句边界标记。此类具有复杂格式、表格和图像的PDF与DJVU文件,也会给文本挖掘带来不同程度的挑战。
2.文档分类和分析
在对各类文档完成收集入库(也可能进行筛选操作)之后,系统会调用各种文本挖掘算法,来检查目标文档是否与主题相关,以及分析文档内所包含的信息。例如:通过判断文档中是否提到了某个产品,以确定其上下文是“正”还是“负”。此后,系统将生成一份文档报告,以便下一步进行手动或自动处理。
总的说来,文本挖掘的方法和算法分为以下几组:
文本规范化和预处理。
使用一整套规则来搜索实体和他们之间关系。
使用各种统计方法和机器学习。
上述这些方法通常会被放到一些复杂的系统中,并被组合到一起使用。
文本规范化和预处理处于其他阶段之前,包括将句子分为多个单词,删除停顿词(stop words,如前置词、感叹词等),规范化剩余的词语(将“人们”变成“人”,将“实现了”变成“实现”),并识别它们在语句中的成分。
规则集则是基于由某个特定领域的专家所制定的一整套规则。
语言规格的重点在于通过语言来分析词序。例如:在英语句子中,单词之间的关系是通过语法和功能词(前置词等)来传达,而核心词一般保持不变。而在合成语言(例如德语、希腊语、拉丁语、俄语)中,单词之间的关系是通过单词的形式来表达的,语序并不重要。
规则的优点是无需训练数据或对其进行标记,由系统所做出的判断是明确的,且容易向人类用户做出解释。缺点是需要花一定的精力来制定一套能够给出足够精度的规则,就算模式只是略有不同,现有规则也无法处理新案例中的相关数据。

回复

使用道具 举报

发表于 7 天前 | 显示全部楼层
一直在看
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4 京公海网安备110108001289号  

GMT+8, 2019-10-16 12:54 , Processed in 0.290275 second(s), 28 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表