Twitter信息的可信度(Information Credibility on Twitter) / 2011-06-27


原文:Information Credibility on Twitter,作者:Carlos Castillo,Marcelo Mendoza,Barbara Poblete。
下载地址(原作者博客):http://chato.cl/papers/castillo_mendoza_poblete_2010_twitter_credibility.pdf

本文是2011年互联网大会中众多有关Twitter的研究报告中的一篇论文,主要是由西班牙和智利的学者组成小组撰写。目前Twitter的确面临这样 的一个问题:如何分辨Tweets信息的真假?而本文致力于开发一种自动方法评估Twitter中信息的可信度。笔者并不是在单纯地翻译这篇文章,而是将读完文章后的一些心得记录下来与大家分享。

背景

1. Twitter是一个优秀的新闻发布平台。
在美国,互联网是30岁以下人群获取信息最重要的渠道。Twitter中“热门话题”通常都是可以作为头条新闻或持续报道新闻,同时Twitter具备直 接从新闻来源、事件现场发布信息的理想条件:方便的发布和快速的传播。目前,Twitter已经被广泛应用紧急事件的报道中,其在许多情况下比大多数主流 媒体更具有“即时性”。

2. 某种程度上,社会网络方便传播谣言。
Twitter上信息传播的速度非常快,但可能无法从谣言中找到真实信息。由于不同于其他社会网络,Twitter上用户的关系很大一部分是单向链或者弱链接。这既影响了Twitter信息的公信力,又使用户缺乏辨别信息真伪的责任意识。

3. Twitter即时信息对搜索引擎开放。
随着Google和Twitter的协议达成,社会网络中的即时信息开始对搜索引擎开放。这意味着信息具有更高的曝光效率,也为别有用心的谣言制造者创造了更有利的环境。

方法

1. 基于关键词的信息监视器收集数据
作者使用信息监视器监控了2个月Twitter网络中的所有信息,通过关键词提取和匹配的方式,将Twitter上的所有议题分为新闻和非正式谈话两类。每一个Tweets必须包含该时间段的粗体字和至少一个非粗体字。

2. 评估信息的新闻价值
这种关键词提取的方法,可以区分民众的谈论与真正的新闻,从而减少无谓的评判并降低数据集的压力。而为了进一步保证价值评估的准确性,本文采用了人工方法,对每一个主题提供了一个简单的描述作为主题句,从而减少评价系统中的无关干扰。
在383个同主题的测试中,35.6%由于没有足够的信息被标为不确定,新闻信息的比例是29.5%,非正式谈话的比例是34.9%。

3. 信誉评估的方法
本文首先使用747件新闻标签的Tweets进行人工测试。同样提供一个简短的描述性语句,确定每个主题的信誉等级。本文将这些Tweets分为四个信誉 等级:几乎肯定是真实的(41%),可能是假的(31.8%),几乎肯定是假的(8.5%), 我不能决定(18.6%)。

4. 自动可信度分析
作者假设,通过社会媒体传播信息的可信度水平可自动估算。涉及的主要因素包括:主题和话题中用户传达的情感、信息传播过程中传播者的态度、外部源(URL)、传播信息中用户的特征。
作者最终确定了四种范围:基于消息的功能,基于用户的特点,基于主题的功能,以及传播的特点。
(1)消息:比如Tweets的长度、是否包含某些文字或情绪词等
(2)用户:比如年龄、粉丝数、被Follow的次数等
(3)主题:对于前两项信息的汇总
(4)传播:比如对Tweets树的深度的构建(传播树,propagation tree)
为了确定信息的新闻价值,首先作者使用一个对时间成本敏感的树找到训练集中误报、漏报的相对成本,建立成本矩阵。同时使用过对一个数据集展开随机抽样,并 执行3倍交叉验证策略。在分析工具方面,作者尝试多种分析方法,包括SVM,决策树,决策规则和贝叶斯网络,最终确定J48决策树是最佳的分析工具。当 然,分类预测的结果比随机预测结果优秀。
而为确定信息可信度,作者确定了15个评判特征:用户使用Twitter的时间、Tweets的数量、他们发推的数量和Twitter内朋友的数量等等。作者使用了箱线图的方法来确定15个特征的True或False,结果是:
(1)活跃用户们在信息的扩散中起到了更大的作用
(2)有许多追随者和朋友的用户则提供了更可靠的信息
(3)情绪对可信度预测具有比较明显的作用,值得注意的是,积极的词汇或者符号往往更倾向于可信度较低的信息
(4)Tweets传播中经常会反复提到同一个用户
(5)Tweets传播树中如果重新发布的Tweets数量越多,该主题信息越可信
结果证明,Twitter信息的可信度是可以通过文本信息的分析来进行的。一方面,情绪或意见可以判断该事件的社会公信力,另一方面,基于用户的功能则对 用户的信誉给出标签。而信息传播过程中通过用户可以帮助判断信息的可信度。从这个角度讲,Twitter社区就像一个社会信息的过滤器。

5. 特点分析
采用J48决策树(一种决策树算法)进行特点的分析其显著特征为:
(1)基于主题的特点:一个带有URL的Tweets是树的根。Tweets中不包括URL时,往往是不可信的新闻。此外,包括负面情绪的Tweets可信度明显高于带有积极情绪词汇的Tweets。
(2)基于用户的特点:低可信度的新闻传播往往在没有太多发布信息的用户间进行。
(3)传播的特点:转发数是衡量一条Tweets是否可信的重要标准,大部分真实的Tweets信息都拥有巨量的转发数。

6. 进一步可信度分析
此外,作者进行了进一步的可信度分析,建立子集,使信誉判断可以自动执行。首先有4个特征子集。
(1)文本子集:确定该消息的文本特征。该子集包括20个特征。
(2)网络子集:考虑了用户的社交网络信息。该子集包括7个特征。
(3)传播子集:确定传播特点。该子集包括6个特征。
(4)热门元素子集:包括热门信息,比如Tweets中包含的热门网址和热门关键字等,该子集包括4个特征。
作者为每一个子集建立了J48决策树,并分别在连接和割裂状态下进行了3倍交叉验证策略。
结果表明,传播子集和热门元素子集与可信度评估高度相关。
作者根据对信誉预测的依赖,绘制了每个要素对应的散点图。两个特征之间的线性关系非常不显著,而情绪对可信度之间的关系相互依赖。

结论

由于Twitter等微博客在紧急情况下的重要作用和对重要事件的传播意义,已经成为了一个非常有效的新闻资源。因此,需要一种工具来验证网络信息的可信度。

本文中,在一个时间周期内,可以自动评判信息是否具有新闻价值和可信度。通常,可靠的信息是通过活跃度较高的用户传播,起源于一个用户或几个用户之间,并有许多重要的节点。

本文由 Libran 89后 投递–作者微博:@Libran89后