大数据时代舆情的内涵与分析方法

大数据时代舆情的内涵与分析方法
11/22/2019 No Comments 舆情行业新闻 admin

人类社会进入一个以网络社会为特征的社交网络时代,普罗大众成为新闻信息的发布者、传播者,社会的信息生产不再由专业的大众传媒机构垄断。这一过程深刻改写着舆论的生态,促使传统舆论概念的改变,同时在研究方法上也出现了革新。

舆情的概念与内涵
(一)从舆论到舆情:舆情的概念与内涵演进。在所有舆论概念中大家比较认同的是孟小平有关舆论的定义,其认为:“舆论是公众对其关切的人物、事件、现象、问题和观念的信念、态度和意见的总和,具有一定的一致性、强烈程度和持续性,并对有关事态发展产生影响。”①这个概念兼顾了舆论的主体(公众)、舆论的客体(关切的人物、事件、现象、问题和观念)与舆论的本体(信念、态度和意见),还强调了舆论的一致性、持续性和强烈程度等,是比较完善和严格的舆论概念。
网络时代来临后,舆论这一概念被逐步弱化,被“舆情”所取代。舆论到舆情仅一字之差,舆情中的“情”,一是强调网络时代舆论变化的速度,“情”字凸显舆论是变动的;二是强调网络时代舆论具有很大的感性特征,即其中夹杂着大量的情感与情绪。网络表达短文本、口语化,使舆情表达出现了最大的变化就是情感因素和感性元素的增多,因此,“情”的第二个含义是情绪或情感。
基于此,舆情是指在一定的社会空间和历史时期内,围绕中介性社会事项(可以是人、事,也可以是价值、观念、制度、规范)的发生、发展和变化,作为舆情主体的民众对相关社会事项的群体性情绪、意愿、态度和意见的总和,由于网络是舆情的主要表达平台,舆情必须是表达出来的言论。
(二)舆情的类别。目前对舆情的划分比较多元,按照内容可分为政务舆情、经济舆情、社会舆情、民生舆情、文体舆情等;按照关涉主体可分为公权力舆情、企业舆情、事业单位舆情、个体舆情等;按照预警级别可分为红色舆情、橙色舆情、黄色舆情与绿色舆情等;按照发生的范围可分为国际舆情、全国舆情、省区舆情、城市舆情、县级以下舆情等;按照发源地可分为媒体首发舆情、网民爆料舆情等。在日常的舆情分析操作中,中国人民大学舆论研究所一般按照内容将舆情划分为社会民生、反腐倡廉、文化教育、涉警涉法、社会安全、时事政治、灾害事故、企业财经、公共卫生等类别。只要存在内在一致性,各类舆情划分范围不交叉,能互斥、穷尽即可。

舆情软件系统平台:舆情大样本定向分析法
目前关于舆情分析的研究方法花样迭出,但概括起来主要有以下两种基本类别,一是大样本定向分析,即利用大型舆情软件系统平台来实现;二是小样本多元分析,即通过最新的研究方法进行局部样本的数据采集和分析。

(一)舆情软件系统平台的基本原理。近年来,舆情监测手段层出不穷,但舆情监测的底层方法没有根本的改变,即均通过网络爬虫程序来实现数据采集。基本原理如下:一是构建需要监测的样本库(包括微博、微信公众号、论坛、贴吧和网站等)作为监测数据源;二是通过网络爬虫进行数据抓取并下载到本地服务器;三是在本地服务器进行数据的消重和聚合;四是对“清洗”过的数据进行图像等智能化、直观化呈现。舆情监测软件监测微博中的数据,需要向新浪申请有偿的API(Application Programming Interface,应用程序编程接口),方可访问并抓取数据(不然会对网络爬虫关闭)。舆情监测软件可以7×24小时对互联网信息实时监测、采集,并对获取的信息进行全面检索及自动消重,进行舆情主题演化分析、时间趋势分析、话题传播分析。目前国内比较大的舆情监测软件服务商有拓尔思、方正舆情、谷尼舆情和美亚舆情等。
(二)舆情软件系统平台的发展趋势。近两年出现了新的趋势,即从舆情软件开发发展到云平台搭建。舆情监测主要是基于单体的监测软件而展开的,将软件产品放置到客户的本地服务器中,软件商为其提供后期的软件升级和支持服务。这种服务模式存在一定的弊端,由于各自为战,服务器较为分散,数据采集和分析都比较零散,不利于展开大规模的数据处理和集约化输出。而大数据与云计算时代来临,软件服务逐步被搭建云数据平台所替代,客户可以通过网页或客户端远程访问,并可以通过一定的权限定制关键词,进而实现舆情数据的抓取和直观化呈现数据结果。
(三)舆情软件系统平台的缺陷。一是舆情监测的效度和信度问题难以验证,目前舆情监测最大的问题是无法论证自己的有效性,各家有各家的“黑盒子”,相对并不透明,手段和算法的不同势必造成监测结果的偏离,到底谁家更准确,难有定论,依然有“盲人摸象”之虞;二是数据源的多寡一定程度上决定了舆情监测的精准度。目前舆情监测均是以样本库作为数据搜索源,不是基于全网进行舆情信息采集,实际上只是样本量较大的局部数据,可能因数据源不全面而造成重要信息监测缺失,最终影响数据监测结果;三是在消重聚合环节,计算机还暂时无法取代人工,目前舆情监测软件最大的区别在于后台的数据处理能力,但目前高层次的信息处理如情感判别和影响力评估等,计算机还不能完全取代人工;四是网络爬虫自身的弊端也在不断呈现,主要是关系数据越来越重要,而爬虫爬取的数据主要是碎片化的信息数据,关系数据往往被忽略,另外越来越多的网站对爬虫程序持不太友好的态度,一旦识别出来直接封闭端口,并且越来越多的社交网站如微信、豆瓣等不开放自己的数据抓取端口,很难抓取这些新兴的社交平台的数据。
舆情小样本多元分析法
在现实舆情分析研究中,不可能完全依靠舆情软件平台进行数据抓取,一般由研究者根据研究对象的情况,进行必要的抽样,利用python、R语言进行数据抓取,借助各种方法进行舆情分析。概括起来,目前主要有以下三种小样本分析方法。
(一)基于关系的分析:社会网络分析(SNA)。随着社交平台崛起,“关系”逐步在虚拟网络空间中成为一种基础性资源和底层构架,“没有一个自我是孤零零的岛屿,每个人都存在于关系网络之中,而这个网络比过去任何时候都来得更复杂、更流动”②。舆论信息基于社会关系网而传导,而社会网络分析方法恰恰是描述社会关系网并将之直观化的重要工具,近几年,社会网络分析已成为舆论分析的重要工具和手段。
另外,传统舆论调查方法的局限性进一步显性化,正如弗里曼(Freeman)指出的,“在过去的30年中,经验社会研究主要由抽样调查控制着。但是,如人们常常指出的那样,调查是一种社会学的绞肉机,它把个体从其所在的社会情境中抽离出来,并确保研究对象之间不存在联系”③。舆论抽样调查有一个基本假设前提——人的“属性数据”会决定人的言论和行为,但在关系网络崛起的今天,人的言论与行为越来越受到其所在的社会关系、社会阶层等“关系数据”的影响。社会网络分析是测量与调查社会系统中各部分(点,node)的特征与相互之间的关系(连接,tie),将其用网络的形式表示出来,然后分析其关系的模式与特征的一套理论、方法和技术。描述和测量行动者之间的关系或分析通过这些关系流动的各种有形或无形的东西如信息、资源等的方法,主要有图论、社会计量学和代数方法。图论适用于描述小型传播群体的核心关系和团聚力等特征;社会计量学适用于研究结构等价性和“块模型”关系;代数方法适用于对角色和位置关系的分析。在研究视角上可以大致分为两种:关系取向和位置取向。关系取向主要研究的是社会行动者的社会联结——密度、中介性、强度、对称性、规模等;位置取向主要关注的是社会行动者之间社会关系的模式化,不同行为个体在结构地位上是否一致,强调用“结构等效”来理解人类行为。社会网络分析目前主要使用的是Gephi、UCInet、Pajek、NETminer、MultiNet、NodeXL等软件,其中用得最多的是Gephi、UCInet等。
(二)基于文本的分析:词频与语义网分析。舆论是由各类词语构成的信息文本,文本内词的多寡、词与词之间的联系可以凸显信息文本的价值观、语意结构和社会诉求等,因此近年来很多研究者将词频分析、词与词之间的关系网分析等方法引入舆情分析之中。
1.词频分析法。分词是文本挖掘的基础,对于输入的一段文本成功地进行中文分词,可以达到计算机自动识别语句含义的效果。词频分析是对舆情文本中重要词汇出现的次数进行统计与分析,是舆情文本语义挖掘的重要手段,也是文献计量学中传统的和具有代表性的一种内容分析方法。其基本原理是通过词出现频次的变化来确定舆情关注的热点及其变化趋势。至少在认知层面上,某关键词被提及的次数越多表示表达者的诉求越集中与迫切。词频分析可以实现微博与微博聊天分析、新闻文本分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。
词频分析的基本步骤是首先对文本进行分词,分词的基本前提是必须有一个相对比较完备的“字典”,“字典”的词容量越大,分词的精准度也就越高;分词后计算关键词的数量,即为词频。词频分析的工具目前越来越多,尤其是一些线上的工具,比较出名的有图悦、纽扣词云、腾讯文智、新榜词云词频分析、Excel词频分析工具、易词云等,国外比较出名的在线工具是Tagxedo、WordArt、Wordle等。近年来,随着各种编程语言的出现,利用Python语言进行词频计算的研究越来越多,一般使用Python中jieba包的中文分词工具(https://pypi.org/project/jieba/)对对象文本进行分词与词频计算。
2.社会语义网。社会语义网只是一种说法,主要是将各个高频词之间通过社会网络分析工具连接起来,形成一个高频词关系网,进而推测话语文本的主要表达逻辑及关注热点。具体来说有以下几种不同的分析方法与手段。
一是共词分析,共词分析的基本原理是通过对一组词项在一篇文本中共同出现的次数统计,并以此对这些词进行聚类,反映出这些词项之间的关联强弱,进而分析这些词项所反映文本的主题结构。一般来说,一个词项对在同一篇文本中出现的次数越多,则表明该词项对的关系越紧密;一个词项对在大量文档中出现次数越多,则说明该词项对与文本之间的关联性越强,共词分析采用一套结构图可以有效地展示词项之间的关联。一般来说,点的大小代表词频,节点越大词频越高,连线的粗细代表两词之间共现的次数,共现次数越多连线越粗。
二是聚类分析。基本思想是将变量按相似程度归于同一群组,“物以类聚”,是共词分析中比较常用的统计方法。根据一些能够测量多个变量指标之间相似程度的统计量,以此为划分依据,可以将各种不同相似度的变量聚合成不同的类别,再将它们的亲疏关系用谱系图的方式表现出来。在聚合的不同类别中,同一类别之内的变量彼此的相似度愈高愈好,而不同类别之间变量彼此的相似度愈低愈好。高频关键词聚类分析是对文本中高频关键词亲疏关系的分析,体现出高频关键词相似性和相异性的分析图谱,通过图谱可以进一步挖掘作者意图和社会语义等深层次信息。
三是词的多维尺度分析。主要通过测量对象之间的距离来展现数据结构,运用低维空间中对象所处的特定位置,通过观察这些对象之间的平面距离,可以了解它们之间的相似性。通过多维尺度分析,可以帮助研究者挖掘数据中的深层结构,通过软件绘制的平面图,能够清晰地揭示出数据中的隐藏联系。在多维尺度分析的结果中,被分析的对象呈现点状分布的特点,图中点与点之间的距离代表它们之间的相似程度,同时将相似度高的和关联性高的对象聚集成一个类别,处在中间位置的对象,代表该对象的核心地位。
(三)基于情绪的分析:情感计算。情感计算是主体对某一客体主观存在的内心喜恶倾向的计算方法。主要由情感倾向方向和情感倾向度两个方面来衡量。情感倾向方向也被称为情感极性,可以理解为用户对某客体表达观点所持的态度是支持、反对还是中立,即通常所指的正面情感、负面情感、中性情感;情感倾向度是指主体对客体表达情感时的强弱程度,不同的情感程度往往通过不同的情感词或情感语气等来体现。为了区分情感程度的差别,一般采取给每个情感词赋予不同的权值来体现。

目前,情感计算方法主要分为两类:一种是基于情感词典的方法;一种是基于机器学习的方法,如基于大规模语料库的机器学习。前者需要用到标注好的情感词典,英文的词典有很多,中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典,还有哈尔滨工业大学信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。基于机器学习的方法则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。文本情感分析的分析粒度可以是词语、句子,也可以是段落或篇章。

舆情分析方法的发展趋势

(一)“文本 关系 情绪”的多元耦合分析。社交平台文本通常采用短文本形式,并且用户发文具有随意性,其语言的规范性非常低,不论用词还是语法常常有悖于标准的语言规范,由此带来文本表示的高维、稀疏、噪音等特性。这使得传统的文本分析方法难以直接应用,对这类社会化网络短文本如何进行有效建模和分析是未来舆情监测的难点与重要方向。另外,社交平台用户通过互相关注建立起来的网络关系是一种典型的社会网络,该社会网络既是用户社会关系与兴趣偏好的体现,又是舆情信息传播的通道。如何将社交平台的文本分析与用户的社会关系分析有机融合,进行语义分析和网络结构分析,是未来舆情分析不能回避的问题。

(二)“地理位置 社会关系网”的综合研判。地理位置数据的特点是多源、异构、高维、动态,这些特点使得地理位置大数据模式多变且关联复杂,使得其各种信息(特别是物理空间信息与社会空间信息)的关联映射成为必须。这方面的相关工作主要包括实体提取、主题建模、基于位置信息的搜索等。经过地理位置大数据信息的关联映射和融合阶段之后,需要对其有效表示才能进行进一步高效的群智认知及实际应用分析。张量(Tensor)作为一种有效的多源异构大数据一体化的表示方法,也得到了广泛关注。鉴于深度学习和张量在大数据表示中的优异表现,近年来陆续提出了一些基于张量的深度学习方法,如波尔斯曼机、张量递归神经网络、深度张量神经网络等。

(三)“动态化 实时化”结构演进分析。社会关系网络结构是舆情信息传播的载体,但由于社会关系网中的个体不断进出,社会关系网络具有高度的动态演化性,直接影响和制约着舆情信息传播过程。大量研究表明社会关系网络结构的动态演化性是由结构的微观变化决定的。对群体行为本质规律的理解离不开对社会关系网络结构动态演化微观机理的深入认识。对微观结构演化认识的匮乏割裂了社会关系网络结构和信息传播之间的动态关联,无法更好地认识群体行为的本质,做到精准化舆情预警。因此,建立社会关系结构的微观动力学模型,进而对其结构进行动态把握和演化,是未来舆情预警研究的关键。

About The Author

Leave a reply

您的电子邮箱地址不会被公开。 必填项已用*标注