福州[切换城市][登录][注册]
搜索风云榜 | 免费发布信息 | 会员签到免费发布信息网址大全

敏感信息挖掘的网络舆情分析

2018-2-13 9:31:57 浏览:71次

在网络舆情分析过程中,最为重要的是“热点”发现与主题追踪。
接下来,蚁坊软件小编来对其进行简单介绍。

1、舆情信息“热点”发现

“热点”发现主要是通过自动抓取目标网站中的相关信息,从而获得当前最具影响力的舆情信息。
热点自动监测的方法主要包括了五个步骤:首先,利用网络爬虫模块得到需要的网页信息,并对其进行动态性的监测,然后再由网页解析器对其进行清理,从而有效保留网页链接、题目、时间以及标题等相关信息,完成网页数据的清理工作;接下来,利用分词模块对文档中的信息进行特征词切分;紧接着,随机选择部分网页,从中进行特征提取,获得特征词语,并通过特征抽取模块对样本网页进行特征词评估,从而可以得到测试样本共同的特征向量;然后,采用特征向量的TFIDF值对文本的主题进行有效地表达,并利用VSM构建模块建立相应的向量空间模型;最后,通过系统中的热点发现模块获得与文本信息相关的矩阵,进而可以发现新的网页热点簇。

2、舆情信息主题追踪

一般来说,网络舆情监测分析主要是在主题发现与追踪的基础上,自动发现当前的舆情热点信息,并对其进行深入分析,从而全面展现当前的舆情热点信息。
其中,话题追踪主要是根据话题及其相应的报道信息,鉴别当前网络中新出现的话题,进而实现对这些信息的动态性追踪。
对话题检测时主要采用聚类算法,这种计算方法简便且运算的速度较快,但是这种方法检测话题时主要是依靠新闻语料的输入顺序。
主题追踪主要是指在给定的追踪结构中,依据文本中的相关信息确定与文本具有联系的主题。
主题追踪的目的主要是为了从大量的网络信息中,对给定的某个事件进行自动追踪,进而发掘出与主题相关的信息。
主题追踪的方法主要有两种方式:其一,主要是在向量空间模型的基础上,充分运用信息检索技术,从而构建相应的查询表达式。
这种主题追踪方法是依据训练集中的文本信息,从而构建一个可以用来追踪的查询表达式,然后采用这个查询表达式对没有处理的网页信息进行匹配;其二,主要是在文本分类技术的基础上的改进算法,较为常用的改进算法主要有KNN算法与判定树算法。

网络舆情监测:http://www.eefung.com/

“敏感信息挖掘的网络舆情分析”该信息由会员自行发布。采用请谨慎,不贪小便宜,以防上当!
© 2007 - 2024 版权所有 娃酷网 粤ICP备19125541号-1