基于区块链技术的社交网络上虚假商业广告检测模型
作者: 王超 来源: 互联网 发布时间:2021-05-06 点击数:22500
摘 要:Twitter,Facebook,以及新浪微博等社交媒体上存在大量商业广告,其中虚假商业广告的推送会严重损害消费权益,并且对行业内的其他经营者构成不正当竞争。鉴于此,可利用区块链技术的去中心化、不可篡改、可追溯等特性,检查虚假广告的传播途径;使用自然语言处理的方法比较各虚假广告文本间的完整度和相似度,以达到识别虚假广告的目的。基于此模型,可以有效控制虚假广告的传播,维护消费者和行业内其他经营者的权益,营造公平正义的社交网络环境。
关键词:区块链技术;社交网络;自然语言处理;虚假商业广告
引言
社交平臺上存在着两类媒体:公媒体和自媒体,公媒体发布的信息具有权威性、科学性、公正客观的特点,而自媒体发布的信息可能带有个人主观情绪甚至掺杂着利益驱动,所以由自媒体发布的信息真假难辨,信息质量良莠不齐,而社交平台上大多数商业广告均是由自媒体发布,其中不乏虚假商业广告的存在。
虚假商业广告对个人甚至是社会都会产生极其恶劣的影响。就个人而言,社交平台每天推送大量的信息,这些信息是通过大数据以及人工智能技术,根据我们以前的爱好、偏爱、信仰、世界观等筛选推送给用户的,所以这些信息中夹杂的虚假商业广告个人大概率会选择相信,很少会去求证它的真实性,从而影响用户的经济决策,选择购买商品,损害了自己的经济利益。就社会而言,当一个虚假广告点击量、浏览量激增,谈论度升高得到广泛传播时,就危害到了社会的安全性和稳定性。与传统媒体相比,社交网络上的信息传播速度更快,影响的受众更多,甚至会引起负面的网络舆论。此时政府则需要花费时间和公共资源去辟谣,维护社会的和谐稳定与公正秩序,平息负面网络舆论[1]。
商业广告的基础属性便是商业性,其目的是向公众宣传商品和服务,吸引消费者注意最终实现购买行为[2]。但目前对于虚假商业广告的管控力度不足,主要体现在三个方面:第一,缺少明确详细的法律法规依据,对欺骗性虚假广告和误导性虚假广告引起的负面后果难以追责问责;第二,政府监管力度不足,给虚假商业广告的传播间接提供了渠道;第三,缺少切实可行的信息技术对虚假商业广告进行识别和追踪,导致人员利用率低,管控力度不足。
由于虚假商业广告具有主体复杂、覆盖面广泛、发布不受时间空间限制、传播速度快等特点[3],加上对于虚假广告的监管工作涉及政府多部门,使对虚假广告的监管出现了诸多问题。为了解决这些问题,新型信息技术的使用对虚假广告的鉴别和筛选尤为重要。目前我国信息监控技术相对比较落后,缺乏有效的信息收集和自动过滤系统实现对信息的动态监测。当前,网络监控主要采取网页直接打印、使用Windows自带的网页保存功能和离线浏览软件三种手段,很难全面保存虚假广告信息,也难以对信息进行有效追踪。因此,结合区块链技术对社交网络上的虚假商业广告进行监测识别追踪则显得极为重要。
目前已有大量关于区块链的书籍以及文献,可是,将区块链和社交平台结合研究的文献比较少。宾晟等基于区块链技术,在社交网络中考虑激励机制对用户传播信息的影响,构建了在不同传播行为下的收益—风险矩阵,从而确定传播模型中各状态间的转移概率和转换过程[4]。赵丹等主要研究了区块链环境下网络舆情信息传播的特征及规律,发现在区块链环境下舆情传播效率有所降低,虚假舆情传播得以遏制,使得优质内容得以凸显,从而重新构建生态良好的舆论环境[5]。马强等人以Steemit区块链新闻平台作为研究对象,指出谣言的发展和应对困境,提出解决网络谣言的新办法并结合国内现状提出国内治理谣言的新模式[6]。钟欢除了对区块链重塑网络舆论环境提出解决建议之外,对于计算机网络技术中人工智能的运用也提出了有效解决途径[7]。潘虹通过比较Synereo社交平台和传统社交媒体平台,说明了传统社交媒体的发展瓶颈和痛点,指出以区块链技术为基础搭建的Synereo社交平台具有极大的发展优势[8]。黄心豪、赵博首先从区块链技术的四个层次探讨区块链技术对优化网络舆论的理论可能性,接着从网络舆论的信息安全问题、网络暴力问题以及言论质量问题这三个方面提出优化建议[9]。李泰安则从各方面对区块链的用途做了详解,最后得出结论:区块链不仅助力于版权保护,在打击虚假新闻、保护个人隐私信息、舆情分析、信息脱媒等领域都将产生重大影响,有望在区块链技术的帮助下将重塑网络舆论环境[10]。张妍认为要客观冷静地看待区块链,还不能将区块链全面直接的应用到金融等高精尖行业,但可运用在打车软件或社交应用等日常生活中[11]。
以上文献都肯定了区块链技术在社交平台中应用的可行性,但是都没有提出一个具体的系统架构。本文在前人的基础上,利用区块链技术构建自媒体组织从登录到发布广告的完整过程,结合自然语言处理进行虚假商业广告间的语义相似度比较,对于语义相似度高的两条或两条以上的虚假广告丢弃出区块链。
一、相关研究
(一)区块链技术
2019年10月24日,中央政治局集体学习时强调,要把区块链技术作为核心技术自主创新的重要突破口,明确主攻方向,加大投入力度。
区块链本质上是一个去中心化的分布式账本数据库。其数据结构是一个有序的、反向链接的交易块列表。区块链中的每个区块都有一个哈希值来标识,这个哈希值是对区块头使用SHA256加密算法得到的。每个区块都可以通过其区块头中包含的其父区块的哈希值来找到其前一个区块(父区块)。换句话说,每个区块的区块头中多包含它的父区块的哈希值,这样环环相扣把每个区块链接到各自父区块的哈希值序列就是一条可以一直追溯到第一个区块的链条。
1.区块链的特点
一是去中心化。区块链是不依赖于单一信任中心的系统,其本质上是一个去中心化的分布式账本数据库,在处理仅涉及链内封闭系统中的数据时,区块链本身能够创造参与者之间的信任,无须第三方介入。区块链本身不创造信任,只是作为信任的载体。
二是不可篡改。不可篡改性是区块链最为显著的特征,是区块链系统的必要条件。区块链的不可篡改是基于密码学的哈希算法,以及多方的共同维护,但同时由于这个特性,区块链的不可篡改并不是严格意义上的,因为当一个人掌握51%以上的算力时,那么他计算出正确哈希值的速度就会比全网其他矿工更快,从而可以修改自己的交易记录。
三是数据可溯源。区块链是一个分散的数据库,而存储数据的就是一个个节点,存储在区块链上的数据,所有的流转数据记录都是可溯源、可查询的,能清楚地看到它来自哪里,又去了哪里。钱卫宁认为,数据溯源方法可分成两大类,即基于批注的方法和非批注的方法[12]。对于非批注的方法,在处理数据的过程中,不需要对源数据和目标数据(处理的结果)附加额外的信息,但是,此时需要了解存储、维护数据进行了何种处理。基于批注的方法将每个数据项变换为<s,d,i>三元组标签,其中s表示数据项源,d表示目标数据(当前数据),i表示中间数据结果。通过在数据处理过程中进行标签传播,实现数据的勾连,以支持数据溯源。</s,d,i>
四是共识机制。区块链是一个可追溯、不可篡改,能有效解决多方互信问题的分布式系统。分布式系统难以避免的问题和挑战就是一致性问题,而解决一致性问题的过程则为共识。假设系统中有n个节点,其中最多有f个节点可能崩溃,也就是说,最少有n-f个节点是好的。节点i从一个输入值vi开始。所有节点必须要从全部输入值中最终选择一个值(决策值),并满足以下条件:其一,一致性,即所有好节点的决策值必定相同;其二,可终止性,即所有好节点必须在有限的时间内结束决策过程;其三,有效性,即做出的决策值是某个节点的输入。安全可靠的共识算法是分布式系统共识达成的关键,共识算法解决的就是分布式系統中哪个节点发起提案,其他节点就这个提案如何达成一致的问题。
五是智能合约。智能合约是采用信息化方式传播,用以验证或执行合同的一种计算机协议。它允许在第三方不存在的情况下进行可信交易,从而有效解决互信问题。
当一个事件信息传入智能合约后,触发智能合约,进行自动状态机判断。如果某个或某几个动作能满足自动状态机中的触发条件,那么状态机会根据预设的信息选择合约自动执行。因此,智能合约不仅能够有效地对事件信息进行判断处理,而且能够保证合约在没有引入第三方权威机构的条件下顺利履行合约,从而避免了违约行为的出现。
(二)自然语言处理
1.向量空间模型介绍。在2013年,Word2vec由Mikolov等人提出,其本质是通过神经网络学习一个输入X对应输出Y的某个语言模型,然后将训练后得到的权重矩阵用来对输入X的词进行分布式优化。总的来说,Word2vec模型任务分为两个部分,一是建立模型,二是通过训练模型来获得权重矩阵,也就是嵌入词向量。
2.语义相似性。向量空间模型是一种常用的文本表示模型。它的核心思想是,每个文档可以表示为一个特征向量,文档中的特征项在向量中有对应位置,特征项的权重作为向量对应位置的元素。其中,文档是有一定规模的文字片段,可以是篇章、段落、句子等。特征项是指不可分的语言单元,可以是短语、词组、词或字等。文档中的特征项是互异的,同一个词在文档中重复出现当作是同一种特征项。特征项的权重表示特征项在文档中的重要程度。向量空间模型早期用于信息检索,为了简化问题,其设计了假设:文档所属的类别与文档中包含的特征项、特征项的权重有关,和特征项的顺序无关。
特征项的权重有多种计算方法,常用的有以下几种。用wij表示特征项ti在文档Dj中的权重,tfij表示特征项ti在文档Dj中出现的频次,N是训练集中总文档数,ni是训练集中出现特征项ti的文档数。
TF-IDF的思想是每个特征项本身也有重要程度区别,每种特征项的重要程度由特征项的信息熵表示。根据香农信息论,在所有文档中出现频次越高的特征项,其拥有的信息熵越小。信息熵通过逆文档频次(inverse document frequency)计算出,其计算公式为:
idfi=log(1)
TF-IDF权重是将频次和逆文档频次相乘:
wij=tfij*idfi=tfij*log(2)
TF-IDF计算过程中由于信息熵本身考虑了特征项的信息量大小,所以通常无须配备停用词表。
向量空间模型通常配合余弦相似度衡量两个文档的相似性。
sim(D2,D2)=cos(3)
其中,n是向量的维度。
二、模型框架
(一)发布管理协议
发布管理协议的主要功能是智能的区分可信和不可信的商业广告或者广告来源。系统运用三种类型的智能合约去辨识自媒体组织,分别是登录、更新、撤回。并且,我们用状态和声誉集对我们系统中的自媒体组织做一个信誉定义。
1.登录智能合约。该系统有一个现有的可以被各种自媒体组织使用的公共密钥映射,用来在现实生活中验证他们的身份。如果没有某个特定自媒体组织的密钥,系统可以通过第三方APIs搜索网页。每当一个自媒体组织想要注册时,系统就会要求它使用现有的公钥签署一条消息来验证它的身份。如果验证过程成功,自媒体组织将获得验证状态,否则,自媒体组织只能作为未经验证的发布者发布信息。在每一种情况下,系统都会向登记的自媒体组织分配一对密钥和公钥,用于数字签名方案。
2.更新身份智能合约。任何已注册的自媒体组织都可以更新自己的身份,并被允许获取多种身份信息,例如。关键意见领袖(KOL)的垂直领域从美妆转向美食。为了以公钥和私钥对的形式获得另一个身份,注册的自媒体组织需要验证其以前的身份(即其公钥先前已在系统上注册)。更新身份证智能合约是用来协助这些要求的。
3.撤销身份智能合约。智能合约的撤销处理的是现有自媒体发布者的终止,终止的理由要么是根据他们自己的要求,要么是系统已经确定某个自媒体发布者在指定时间内行为异常,行为异常时通过计算信誉评分来量化自媒体的信誉实现的。
4.可演化声誉集。系统内有一个可演化声誉集,用来衡量自媒体组织的可信度。为了使该集合可演化,我们为每个未经验证的自媒体发布者分配了一个初始的声誉分值0,并允许该分值随着时间的推移而变化。如果该自媒体共享真实的信息,发布符合事实的商业广告,则自媒体声誉值会增加。否则,如果未经验证的自媒体发布虚假商业广告或虚假信息,则其身份将在该时间段后从系统中被撤销。如果一个未经验证的自媒体在给定的时间段内获得了指定的声誉分数,那么它将获得经过验证的自媒体的状态;另一种维护可演化集的方法是获取消费者的反馈,但这会带来主观性和偏见问题,并使系统面临恶意行为的风险。
(二)关于商业广告智能合约
创建商业广告智能合约用于自媒体在网上发布商业广告。愿意发布商业广告的任何自媒体账户都可以调用它,方法是提供它们的公钥和数字签名。智能合约将发布者名称、状态、公钥、时间戳、广告字符串等相关信息存储在一个结构中,并将商业广告实体广播到P2P网络。
同一商业广告不可能只由一个自媒体组织发布,若同一虚假商业广告被多家自媒体组织发布,为了提高监测速度和识别效率,确保精准识别不同自媒体发布的关于特定产品的虚假商业广告内容,可使用自然语言处理的办法解决。通过在区块链上检查虚假商业广告,系统可以使用语义相似度来衡量虚假商业广告内容之间的相似度。这种语义相似度指数可以通过上面介绍的Word2vec方法来测量,计算单词之间和文档之间的上下文相似度。
(三)建立商业广告区块链
1.诚实挖矿节点。因为在P2P网络中可能存在恶意节点,如果希望修改已传播的虚假商业广告的内容,则可以使用PoA协商一致协议来维护区块链,并提出一个新的“商业广告区块”。假设大多数诚实的矿工节点都提供了维护系统完整性的服务,每当一个可靠节点获得一个新的消息块时,就会建议将该块添加到区块链中。诚实的矿工节点可以由可信的主流媒体或任何其他可信的自媒体组织部署,目的是确保信息共享的完整性。
2.Proof-of -Truthfulness协议。网络中的任何参与节点都可以使用PoT方法来验证它遇到的消息是否是区块链的一部分。这是通过将消息存储在Merkle树中实现的。其中,Merkle树是一种哈希二叉树,由一组叶节点、一组中间节点和一个根节点组成。叶节点包含存储的数据和其哈希值,中间节点是它两个孩子节点内容的哈希值,根节点也是由它的两个子节点内容的哈希值组成。Merkle树的主要特点就是,底层(叶子节点)数据的任何变动,都会逐级向上传递到其父节点,一直传递到Merkle树的根节点,因此叶子节点数据的任何微小变化都会使得根节点的哈希值发生变化。
(四)框架说明
根据图1模型,我们将对所提供的模型框架进行说明。当一个新的自媒体组织申请加入系统,登录智能合约将被调用,并將检查是否此发布服务器的公钥在现有映射中。根据结果,发布者将被分配一个公钥和密钥对,以及已验证或未验证发布者的状态和初始声誉评分;然后,它将成为可演化声誉集的一部分。在此期间,现有的发布者可以更新或撤销其身份,而行为不端的发布者的身份将被自动撤销,如上所述。每当发布者希望发布消息时,都会调用创建商业广告智能合约来方便发布商业广告,它会将商业广告文本和其他需要的参数放在一个商业广告实体中,并将其广播到P2P网络。在P2P网络中,如果此块被标识为有效块,则矿机节点将其放在商业广告区块链上。一旦商业广告成为区块链的一部分,就可以分别使用语义相似度和Merkle树来验证广告的完整性及真实性。
结语
区块链技术是一种去中心化的账本技术,通过支持智能合约、去中心化共识和防篡改认证等功能,可以为未来自媒体宣传商业产品带来透明度和信任。本文首先介绍了区块链技术的特点,证明了将区块链技术应用于社交网络上商业虚假广告的检测是可行的;接着从发布者管理协议、商业广告智能合约、商业广告区块链三个模块详细介绍了利用区块链检测虚假商业广告的模型框架;最后在框架中,我们加入了语义相似性的识别,检测虚假商业广告之间的完整性和相似度,以提高系统监测效率。
基于我们的模型框架,网络执法人员在面对浩如烟海的网络信息时,可以及时有效地识别虚假商业信息的存在,并且利用区块链技术可追溯和不可篡改的特点,精准定位虚假商业广告发布者的网络位置,有效保存虚假商业广告的具体内容,作为该自媒体的定罪依据。
本文从理论角度出发建立社交网络(下转95页)(上接47页)上的虚假商业广告的检测模型,但实际上目前国内关于区块链技术的实际应用比较少,还有很大的研究和实践空间。对于发布虚假商业广告的自媒体,要通过完善相关法律法规,将其绳之以法,以儆效尤,同时,公众也要善于使用公民的举报权,通过举报维护自己的合法权益,彻底杜绝虚假商业广告的传播。
参考文献:
[1] 刘怡君.社会舆情的网络分析方法与建模仿真[M].北京:科学出版社,2016.
[2] 房梦琦.新媒体时代公众对虚假广告的认知研究[D].南昌:江西师范大学,2019.
[3] 刘晓洁.网络虚假广告的传播途径、成因与治理对策[J].新闻前哨,2018,(9):73-75.
[4] 宾晟,孙更新,周双.基于区块链技术的社交网络中舆情传播模型[J].应用科学学报,2019,(2):191-202.
[5] 赵丹,王晰巍,韩洁平,等.区块链环境下的网络舆情信息传播特征及规律研究[J].情报杂志,2018,(9):127-133.
[6] 馬强,林浩瀚.基于区块链技术的网络谣言治理模式探析——以新闻平台Steemit为例[J].新闻论坛,2018,(4):29-33.
[7] 钟欢.区块链重塑网络舆论环境和治理[J].现代信息科技,2019,(1):100-101+104.
[8] 潘虹.区块链技术破解社交媒体平台发展痛点——以Synereo为例[J].情报探索,2019,(7):64-67.
[9] 黄心豪,赵博.基于区块链技术的网络舆论优化研究[J].中国传媒科技,2019,(1):48-51.
[10] 李泰安.区块链重构网络舆论环境[J].传媒,2017,(21):87-90.
[11] 张妍.区块链技术在社交中的应用展望[J].中国乡镇企业会计,2018,(4):254-255.
[12] 钱卫宁,邵奇峰,朱燕超,金澈清,周傲英.区块链与可信数据管理:问题与方法[J].软件学报,2018,(1):150-159.