CAMIR官网
大数据、人工智能、区块链技术的价值和行业应用
2018-10-22

沈浩:“大数据领域一直有这样的说法:软件定义一切,数据驱动未来,算法统治世界。”数据科学让我们越来越多从数据中观察到人类社会的复杂行为模式,以数据为基础的技术决定着我们的未来。无论是大数据、人工智能还是区块链技术,都在驱动数据科学产生新的洞察,驱动市场研究行业向新的方向发展。
本文系CMRA2018中国市场研究行业领袖高峰论坛系列报道第二篇,由中国传媒大学教授、CMRA会长沈浩老师带来的三清山行业领袖高峰论坛的演讲原话录音整理和音频,也是参会人员评选的最受欢迎的演讲内容之一。
5月22日(实录)
真的非常感谢我们整个市场研究行业,我们各位同仁聚集在三清山,我们共同论剑。我们也希望通过这次三清山的活动对我们中国市场研究行业,或者说传统的中国市场研究行业如何向新的,一种新兴的中国市场研究有一个转折点。去年我们在行业报告中一直在谈论中国市场研究行业的状况,当时对行业的调查里面有很多关键词,无论在哪个方面一直都离不开一个很重要的概念叫DATA,BIG DATA,大数据。

我们从云计算开始积累了大量的数据,随着商业自动化导致海量数据存储形成了大数据。大数据之后,我们忽然发现人工智能来了,我们发现了物联网,当然今天呢,又一个叫区块链概念。2016年这个行业的关键词不仅仅是我们这个行业,整个社会的关键词叫做大数据。2017年关键词叫人工智能,2018年他们说区块链。

所以这个世界变化非常快,我们聚集在三清山,我就在想,我们要回答一个非常深刻的哲学问题,叫我是谁,从哪来,到哪去;你是谁,从哪来,到哪去;
我们知道,对于这样一个哲学命题,我们的市场研究是从哪里来的?我们要到哪去,我们的客户,我们的消费者从哪来,它到哪去。今天我们会发现,基于大数据下的人工智能已经出现了非常重大的突破,这种突破一方面解决了视频、图像、文字、声音,语言。我们可以看到,我不知道今天有没有人做笔录,其实打开我的手机,打开讯飞听见可以实时把我们的录音转成文字。但是同样我们也看到在大数据领域一直有这样的说法叫做软件定义一切,数据驱动未来,算法在统治世界,特别是算法。
今天个性化推荐越来越多的可以让我们感知和营销到每个个体的消费者。也就是说今天的大数据,它对每个个体的消费者可以建模,一个群体是来自于个体,或者活生生的个体加总。在这我有这样三句话,第一个叫DATA science,数据科学会产生洞察,我特别喜欢洞察这两个字。我曾经很早的时候说过,数据科学让我们越来越多从数据中观察到人类社会的复杂行为模式,以数据为基础的技术决定着我们的未来,但并不是数据本身,而是我们从数据中拥有更多的可用知识的增加。而这种知识的增加随着我们机器学习,显然机器学习不是基于过去我们所说的传统统计分析方法,传统市场研究行业是基于统计的,统计是基于抽样的,抽样不过是小样本,当然我们今天会发现,我们一直追寻或者我们阐述一种所谓大小数据的融合洞察。但是大数据和小数据不可同日而语,它不是在同一个层面上,因为大数据已经纳入十九大,成为国家战略,包括人工智能。

随着机器学习其中一个很重要的深度学习技术已经产生,而AritificalIntelligence是可以产生action。昨天立丰写到数据到行为,最终的洞察。从洞察的角度看行为,而我看到,机器学习会产生预测,prediction到action,这些新的数据驱动的技术在不断改变我们的经济、社会和研究技术的变革。

可能大家更关注的是对技术的改变,但是我们会发现,在经济上中国处于全球比较大的体量的时候,我们的社会变革也面临着技术上的颠覆,而这个颠覆可能就是我今天重点要说的区块链。所以今天我把后面这点时间专注在一个叫区块链。
什么是钱?钱有三种功能:第一钱是交换的媒介,如果没有钱我们就得用换牛换羊;第二钱是储蓄的介质,如果你存了一头羊、存了一筐鸡蛋,羊会死,鸡蛋万一臭了呢?你就没有价值了,所以我们拿着钱。第三个钱是一种度量单位,我们可以进行度量的分解来进行交。现在产生了一种数字货币。数字货币主要作为一种介质,一种交换介质,一种储户的单位、一种价值,因此它具有钱的特性。

那如何产生,今天我们所说的区块链到底是什么呢?实际上它是建立在互联网之上,我们知道互联网是信息交换,到了区块链的叫价值交换。什么叫价值交换,我们知道在现实社会它是一种交换价值,我给你100块钱我就没有一百块钱了,但是互联网上,我给你一个文件,给你一张相片我依然还有,我只是拷贝给你。而我拷贝给你就可以再次把这张相片,这个文件拷贝给别人,这样就形成双重支付、多重支付的形态。如何避免这种多重支付呢?如何实现两个人之间的P2P交易?当然我们需要有一个共识机制。

这个过程我与大家谈谈区块链,我说区块链是一个正经的技术,比特币正经不正经就不知道了。但是离开币这件事情没法谈的,因为它对社会的变革最重要的是在价值的交换,而价值就需要度量,今天没有币就没法进入这个门槛。换句话说你不懂SPSS你没法进入市场研究,就像你今天有了币才能进入到这个交易环境。
最早的时候,大概2008年一个叫中本聪的人发布了一篇学术论文,大概2009年1月3号产生了第一个比特币,第一个区块。今天我们看到这个币它的价值是什么?这是中本聪写的,他主要描述的是P2P,两个人交易的基于现金的交易,电子化的交易系统或者叫现金交易。所以2008年到现在10年时间,真正大家对区块链的认识发现,比特币底层原来用的是区块链技术。

什么是区块链?区块链为什么会改变世界?大家听到最多的是一个叫矿工或挖矿的概念。实际上今天想拿到一个叫币的东西,比特币,主要有三种模式:第一就是当矿工,现在挖矿已经挖不到了,或者一般人挖不到,因为它的机制决定了它可以并行计算。所以现在到2140年将完成总量,两千一百万个比特币。现在已经挖到一千七百多万个币了,就是总量是固定的,所有发币一般都是固定的。意味着什么?意味着这种币本身就存在着或者它天生具有通缩的特性,没有通胀的特性。
而我们知道纸币和黄金挂钩,当脱离黄金这个概念的时候纸币就是废纸,之所以成为钱是因为有国家、有银行背书。所以我们想知道到底这个比特币怎么生成的?其实它是一个区块链。这个里面我们就会发现,这里有一个函数,我写了一个F,准确来说这是一个哈希函数。我们只要输一个X就会得到一个字符串,叫散列。这个散列可能64位的,所以标准的加密算法就是通过哈希算法可以得到HSA256。HSA就是哈希安全算法256。基于这种算法我们会生成一个串,这个概念非常重要。

如果我们想知道立丰是不是知道一个答案,但是立丰不想告诉我,我也不想告诉立丰,我怎么能知道他知道答案呢?好了,只要立丰把他要知道的答案当成X输入一个哈希得到我们叫做哈希值,我的答案也通过它生成一个哈希值,如果我们两个人的哈希值一样我就认为他是知道答案的。这个里面就生成一个非常重要的特征,这个特征就是说,任何一个东西无论是一个图片、一个数据包,一个电子的证书,只要输进这个X,当成X输进去就会得到一个唯一的。任何一个微小的变动,就像输入一张图片,只要把这个人眼睛里面某一个像素改一点,这个哈希值都会产生极大的变动。

这个时候我们会说矿工在这里干吗?矿工叫POW,叫proof of work,叫工作证明。原来是当我和另一个P2P进行交易的时候会发现这个交易实际上就是记账。
我借给立丰100块钱,立丰借给张总100块钱,张总借给德寰100块钱,其实就是德寰欠我100块钱。而这个过程只要记了账我们没有现金的,不需要钱cash。所以A到B、B到C、C到D、D到A,它本身的记账过程就是一个账本,我不需要真的拿钱,拿黄金来背书这件事,只要大家认账。这个时候我们要做记账,谁来帮助记账呢?想象一下什么是区块链,就是我们有一个账本,账本里面有一页一页。第一页叫做创世纪块,每一页就是一个块,这一页就记录着谁给谁多少钱,所以你有多少钱是从最开始的块当中记录了你的消费。比如说今天我有15块钱,我要给德寰10块钱,其实我这个交易就是记录了我给德寰10块钱,再给自己5块钱,这个交易就从15块钱转到另外一个记账区块中。

这个里面矿工干吗?就是帮你确认这个账对不对,他怎么确认这个账?他就要挖矿。这个矿实际上是一个哈希值,这个哈希值有一个特殊性,就是这个64散列特别多,我们只希望你只要能猜到前面4位或者5位,这个就叫难度。假如是4位或者5位的话,就说4位吧,这4位才保证这是我可以写入的块。也就是说只有满足哈希值前4位是零的才能够把区块写进去。当然了,这个过程中谁先找到能够写入块的哈希值,这个获胜的矿工就会得到奖励。这个奖励最开始是50个比特币,四年一个衰减减到25,今天大概是12.5,这个时候挖币越来越困难,因为挖币需要大量的算力和电力。

据说现在在中国挖一个币不考虑任何其他因素,只考虑电费大概是在1500美金。而最便宜的可能是在委内瑞拉,大概需要600美金。好了,一个区块大概由5部分组成,第一个部分就是前一个哈希值,以及时间戳。还有一个就是我们看到的这个哈希值,这个块的哈希值。另外DATA,DATA就是我们将来要做的工作,现在比特币的思想上这个DATA里面就是我们的账本,一页一页纸的账本。Nonce是什么意思?实际上就是我要猜,因为出现了一个哈希散列满足前4个零的过程非常慢,所以有很多可能性,我就要把DATA这几个值放进去,然后我在变Nonce就猜一二三四五六七八九去算,这个算的过程就看谁的算力强,谁先算出来就得奖。这个过程就形成了区块链的基本模式。

这个区块链大致什么意思?我们可以看到区块链里面大致这个意思,如果我在这个里面,这是一个链,这个DATA只写了一句话,这样就产生了,这个叫创世纪块。现在生成一个新的框,随便写一个什么都行。比如说写沈浩,沈浩这两个字就生成一个新的块,这个新的块出来以后会发现它的时间戳,以及在多少次算出这个东西,你可以再写一个。比如说稍微改一个又会变成另一个链,这个链里面不断生成链。现在想说把这个链改成2,这个时候就犯错了。为什么?如果这里是1,你在这里改一个,比如说在这里改成2,你会发现整个后面的链全部错误,所以你要想篡改这个账本。

账本就是一个账本写第一块、第二块,第三块,第四块,但是这个账本也是有容量的,目前来讲基于比特币的块,这个DATA内容最多装一兆的内容。挖矿要保证10分钟挖一次,就是10分钟出一块,那就要调整这个难度,以便于保证在10分钟。但是这10分钟大家发现没有交易非常慢。我们知道刷一个微信瞬间这个煎饼就买到了,账就到了。如果10分钟才到账,你愿意吗?所以为了解决这些币的问题大家会产生分歧。

比如说有人就说了能不能让里面的DATA,就是让这个DATA里面的内容多一点,这样内容多一点可以装的多一点,交易写的快一点,但是这个可能带来一些信仰的改变。但是也有人开始我说要变成八兆,这样就出现比特币和比特钱,这又是一种概念,在逻辑上这个叫分叉。
什么叫分叉?就像写笔记本写到50页了,51页的时候自己又拿一个新笔记本重新记51页。还有人从零页重新写,这种方式都有可能。所以比特币和区块是不断被记录下来,并且不可篡改的。你要篡改就要达成一种协议,就是51%的人同时达成共识篡改,但是这个在数学上可行,实践中是做不到的。这个时候链一旦写进去就没法改变了,整个交易过程实际上是用一种叫数字签名,其实就是一个数字令牌token。特别在区块链行业,大家把比特币叫做一个数字加密的货币,但是还有很多币。就像美金、人民币,还有各种各样的里拉什么的,他们一般会叫代币,这些代币都是数字令牌,所以叫做token,现在人们把它叫做token经济。这个交易其实全是通过这个数字签名来做的。

这个里面有一个私钥加上一个公钥,公钥是由私钥生成的,就像哈希,把一个私钥你掌握着,你这个钥匙放到哈希函数生成公钥以后,公钥可以给别人看,这个过程中形成这样一个记录。但是人们会发现除了钱的交易,一个现金的交易行为。有没有可能不是做现金交易的,我是做应用的。大概2016年的时候被大家认可的叫以太坊。以太坊和比特币什么关系?以太坊和区块链什么概念?这个时候会发现核心概念是区块链或以太坊这个概念了。

这里先给大家看一张图,这张图如果能够理解,我不会都讲完,我主要根据时间来决定这个。这个里面会发现大家定位一下这个事情,我们知道我们现在有安卓,实际上有两个,一个是安卓,一个ios。这个之上我们会产生各种的APP,今天我们拿到的微信,甚至各种各样的App应用。这些应用实际上都是基于安卓或者ios的。底层实际上是我们基于互联网或者基于移动互联网的互联网技术,或者一些协议。但是今天有人发明了比特币,比特币底层直接是区块链,但是所有人想做同样的比特币难道都是从同样的角度开始吗?人们就会发现区块链技术之上有一个叫23岁的俄罗斯裔的加拿大人(VitalikButerin),他就编出来一套叫做以太坊的类似开发Dapp的操作系统(Ethereum虚拟机)。

以太坊也是一个链,他就希望大家不断在这个链上建立各种APP应用,这种APP应用就叫DAPP。也就是分布式DAPP。这种环境里面DAPP应用场景形成我们现在看到的,到底区块链是一个什么东西。首先它是一个去中心化,去中心化的概念是什么?我们看到那边叫中心化,中间我经常说这个叫幂律分布,实际上这个就是去中心化,像这种叫分布式。中心化的概念实际上去中心化,其实还有去信任。为什么?服务经济是一个价值交换,服务是价值交换,你没有获得产品,你获得只是功能和价值,而我们市场研究行业是典型的服务行业。

基于这样的服务经济对于一般人来讲,比如说对于区块链到底是什么?计算机IT人士认为是一个分布式加密的数据库。金融人员认为是一个账本,是一个记账方式。技术人员认为是下一代互联网,甚至有人叫全球互联网或者全球计算机。这个当中一切都是去中心化,具体说去中心化的概念就是去国家、去政府、去企业。这个过程离开了集中管理,人们如何彼此相信,所以这种去中心化完全通过数学、密码,计算机的代码产生的。所以有一种说法叫做代码就是法律。这种法律主要建立在以太坊上的智能合约,而这个智能合约通过共识机制达成。

什么叫共识机制?其中有一个很重要的概念叫零知识共识,就是我们彼此之间不需要有必要知识就可以达成共识,当然这个共识指的是多数人达成的共识。这个里面就会出现各种各样的应用,各种各样新的名词。这种名词和新的应用,比如说分布式应用、分布式账本、智能合约等等。到底在这个过程中银行起什么作用?银行不需要了。为什么?当我和立丰有一次交易的时候,美金和人民币还要进行兑换,还要损失汇率,我们交换的时候还要跨国,还要受到外汇管制。当我钱不够还需要第三方或者我的客户经理帮我确认是不是有钱,这一切事情都是分布式记账。所谓分布式记账,就是我刚才说的一个账本,如果今天在座50人都是这个圈里意味着我们每个人都有一套自己的账本,如果我把我的账本改了,我需要把每个人的账本都改掉,而这个事情几乎不可能的。

以在生成一个链的过程中不断形成以后,你任何一个改变都可能造成这个链的变化。所以这个过程中大家发现比特币在早年的时候人们说比特币大概值多少钱,结果发现比特币人们花1万个比特币买了一个披萨,但是今天一个比特币最高曾经达到接近两万美金。我记得大概在2016年的时候,曾经达到过九千人民币,中国政府尤其对它的一些应用产生一些限制,跌到五千,结果马上又涨回来。2017年的12月份几乎达到顶峰,今天一个比特币的交易大概8400美金。

代码就是法律如何形成今天新的经济?首先它有很多优点。比如透明,今天全球所有基于以太坊或者区块链的交易中,每一个交易都是可以追溯的。任何人都可以查询这个交易,只不过我查到一个账户有一笔交易但是不会查到这个账户后面到底是刘立丰还是德寰,我只知道两个账户进行交易,所以这种交易是加密的。这种加密的交易使得大量比特币出现,交易中往往用在洗钱、毒品和我们所说的一些非法军火交易,包括现在的勒索赎金。
我们知道大量的勒索最终都是在取钱的时候被警察抓的,所以像这些只不过是恰恰他们最先发现了比特币或者这种数字交易的方式的特性,但是他本身是绝对安全的,没有任何人改变这种交易行为。所以这个过程中就是我们要写智能合约了,智能合约实际上是在以太坊上的实现P2P之间交易行为的一种计算机代码。当代码写好以后,那么对我们来讲,就是只要你点击的行为就代表着你确认了交易,确认即认账,你还要认,不可反悔。

到底比特币和我们市场研究行业有什么关系?
首先我们想这么一件事情,如果真正形成一个区块链的经济体系。比方说德寰是一个作曲的人,他写了一首歌,这个歌要给其他听众,给其他人看。那么怎么保证我一点击就得到收益呢?当然了,我们这么多人点击得到的收益德寰会不会把钱给那些作词、作曲、吉他手等等这些人呢,当所有的协议写好以后,只要生态环境在里面任何的点击自然就执行了智能合约且自动执行了。
那什么叫去中心化?我们知道我们的被访者总是不信任我们,因为他完成一份问卷我们会不会给他钱,当然我们有时候也不信任我们的被访者,你真的有驾驶证吗?你真的是这样的人吗?你的月收入真的达到标准了吗?我们怎么筛选被访者。去信任的中心化环境里面信任是没有问题的,因为我跟你要结婚证,甚至要你的隐私照,你只要给我这个证是被认证的,我不需要看到这个。因为X输进去以后就可以根据我的确认。大家知道吗?今天这样的加密技术在互联网非常多,你上传一张照片并不是百度真正应用你这张,而是发现你这张哈希值和库里的哈希值一样就会直接调用已经存在云端的电影或者图片直接发送给你,不需要等你传,这个传输不需要的。
再举一个例子,我们在新浪微博每天都在写自己的心路历程,但是新浪市值假如达到一千亿跟咱们一点关系没有,为什么?我白写这么多东西。但是如果在区块链下的这种社交媒体,我每写一个东西,你要读都会有价值间的交换,因为有一种币,那这些币大部分都是代币,当然你发行ICO,这个就叫发行代币,这个国家是控制严禁这个。所以他们跑到老挝、新加坡、日本去做。但是另一点来讲,实际上在一个社交媒体环境里面,我们所有行为都是一种价值交换。同样再举一个例子,今天我们市场研究公司来了50家,假设市场研究公司的玩家就是50家,我们每家都有数据,我们获得数据。数据以后大家都希望在数据中实现价值交换,但是一旦把一个文件,比如说益普索的调查数据包结果给了尼尔森,那尼尔森就要知道益普索是不是把这个数据包卖给别人。如果分发没有问题,不能再卖给别人,我们数据共享在智能协议下就有可能解决。

目前来讲我们这个行业更关注的不是要炒比特币,但是没有币没法玩,因为没法进入这个技术领域。同样我们要关注的是区块链,区块链才是我们实现未来经济这种所谓去中心化,信用体系下我们可能产生的东西,而这种东西就是把问卷,把被访者和我们之间,我们和客户之间,市场研究公司之间,我们之间的协议通过智能合约的方式建立在一个区块链上,也许会形成一种新的模式。当然这个模式仅仅限于我们玩家的50家,不在这个里面的人依然可以用传统的方式,拿着现金,拿着篮子买鸡蛋,没有问题。但是呢,在市场研究也许是这样一个情景,但是我们知道金融行业,任何其他行业都在开始思考区块链在这个行业的变化,当然这种变化有好有坏。因为有的就把它变成太空币,有的变成圈钱工具,不是想如何开发智能协议,而是想法怎么炒作比特币,这不是我们要讲的,也不是我今天的目的。
但是从另一点来讲,除了我们现在所讲的区块链和比特币的概念,它主要指公链,就是所有人只要有电脑上网就可以操作的一种方式,它不歧视任何人,当然歧视那些不懂电脑的人,不懂这些操作的人,任何人想做就可以做。
第二个,今天发展最快不是公链,而是叫联盟链。什么是联盟?10家银行、100家银行如何构建银行之间的信用体系,开具信用证明等。对于我们来讲也许我们可能更先产生一种叫做联盟链,通过智能合约的方式、区块链的方式构建50家企业的联盟,这可能是我们要做的。当然还有一种叫私链,私链就相当于,比方说益派说我在内部构建被访者,我的员工,或者就是我和被访者之间,样本之间的信任关系通过区块链,这个可能只是一个叫私链的方式。但是对个人来讲,我这半年一直在钻研区块链的一些算法,我们也可以看到在网上有非常多的这种技术在讲解这些方式和原理。

比如说这个里面会讲些数学原理,大部分都是通过编程方式理解,所以对我们来讲,我们行业大数据人才还在培养的时候,还没有缓过劲有来了人工智能的人才。今天突然对我们似乎又想说是不是应该有区块链的人才。但是无论怎样,行业需要具有两种技能的人,当然我只是偏颇的去谈论这两种技能的人。第一种就是计算机人才;第二种就是懂算法,无论是数学还是其他的,这两种人才在我们构建大数据、人工智能,甚至区块链上都起着非常重要的作用。
时间问题,我就讲这么多,细节上如果还有,我们喝酒的时候可以再次阐述这个问题。有人说区块链是非常复杂的技术,可能你听这20分钟不一定能搞懂它的大致原理,也许这个事情需要有一种认知的东西。同时我也希望我们这个行业,至少我的角色除了担任会长之外,我希望带来一种对前沿趋势的认识。对不对,未来是不是这样,我不知道,所以我们才要上三清山论剑、讨论,谢谢大家!

5月23日(实录)
今天的话题大家经常谈到洞察,我先解读一下基本概念。
我先解读一下洞察insight。开始我已经说了洞察实际上只可意会不可言传。实际上我们经常说数据,立丰说数据、信息、洞察是吧,但是实际上我们应该这么说,数据、信息、知识然后是管理模式,然后是传播形成集体的智慧。为什么呢?我们如何把数据变成信息,信息转成知识,知识要传播出去,能够形成集体的智慧,因为信息可量化的。
什么是数据?数据,一说我有数据,代表一种信心,一种决策的支持,但是现在的数据还有一个定义,要追加定义,是说数据必须能够被计算机处理、传递,是能够对数据进行计算机加工、推演的东西。
第三个概念主要的就是大数据、人工智能、区块链。什么是大数据?我不知道在座的怎么解读,大数据是什么?有人说大数据就是你处理不了的数据就叫大数据。准确地定义是说,在通用的软件工具去处理数据的抽取、转换、加工、分析的过程中,在可容忍的时间内处理不了的数据就是大数据,这是维基百科的定义。但是随着大数据的发展,人们说什么叫大数据?大数据就是不断增长的数据叫大数据,越存越多的数据叫大数据。还有人说大数据实际上是人的行为数据的总和,还有人说大数据是复杂数据、大数据是预测的数据,这个就像我们经常说的,实际上就像瞎子摸象,摸到哪可能哪就是。所以标准的大数据的定义有一个叫4V,当然还有5V、6V,比如说又增加了可视化。总之来讲,我们更愿意讲今天是大数据时代,而不是大数据这么一个概念,是我们进入到大数据时代。
人工智能是什么?1956年在达特摩斯就已经有人界定了什么叫人工智能。人工智能是让机器具备人或者生物所具有的智能去解决我们社会的问题,特指的是一段计算机程序。所以这个过程中,今天又出现一个叫做区块链,区块链是一种不断按序增长的不可篡改的分布式记账数据库。
所以我想先给大家演示一下怎么去做所谓的大数据。
最简单的一个道理,比如说我这里有一个程序,前一段时间经常有人问,特朗普当选总统以后,特朗普的性格特别重要。为什么?因为特朗普好像不应该当选,结果他当选了。你们都说不脱欧,结果最后脱欧了。到底什么是真正的民意,因为有大量的民调说特朗普不会当选,结果特朗普当选了,所以特朗普的性格很重要。所以有人就问了,能不能分析分析特朗普的性格。我就分析了,如果仔细看,是不是一个大五码性格分析,特朗普责任感特别强,而且他的智力非常高,他的独断性很强,他的同情心很高。还有一个需求,特朗普的结构非常稳定,什么叫结构稳定性?就是结构往往是一个人的,就像我们说中国人的最大结构就是人口结构,不是一代人可以改变的,所以应该尽快放开二胎,好像马上要放开了。

所以呢,从这个角度来讲,结构的稳定性往往出现了一个叫做强壮性,叫鲁棒性。但是鲁棒性的东西都有脆弱性,这个就像阿喀琉斯之踵,知道这个神话吗?所以从这个角度来讲他的价值观是保守的。其实我还分析了他每天上网的时间,发推特的时间。为什么呢?你会发现特朗普真的不错,他基本上上班时间不发推特。我同时分析了他130个多个个人消费习惯,个人偏好,包括看什么电影、购什么车,注重什么内容。你会发现他喜欢看什么,未来有没有可能创业,他购买车看重什么,喜欢不喜欢听音乐,喜欢看什么,我就分析特朗普,好在特朗普正好是用推特执政的。
那大家就想到了,我既然能够分析特朗普,我就能分析特朗普那个团队。所以从这个角度来讲大家会发现什么。你会发现原来我可以分析特朗普,我可以分析特朗普他关注了43个人。我们用非常好的可视化就可以看到。当然你也可以不分析特朗普一个人他的团队,你有没有想过,要不我把世界上所有的领导人都分析了呢?这个时候你会发现,这个分析,我连梅姨也分析了,它会不断扩展这个过程。

那大家想想什么叫大数据?只要我会分析特朗普,推特上的10亿人理论上都可以分析,这个话对不对,我还可以分析他们的互相关注,所以这就是大数据的特征,可以分析一个活生生的个体。所以分析大数据,只要会分析twitter上一个账号,意味着所有账号都会分析,这个过程就是计算机自动完成的。
我说了大数据除了包括我们所说的非结构化数据,其实还包括关系数据。因为今天所有的人,比如说穿一样的衣服,我@你,我们加入同一个俱乐部,所有的关系都是大数据。还有一个就是我们的位置信息,所以如果我们有了位置信息,如果我们可以搜到所有学校,占地面积很快就可以算出来。所以大数据对大家来讲要学会一个很重要的云应用,什么云应用?比方说大数据能做什么,这是百度的AI应用,大家可以看到在百度Ai里面能干什么。如果这个角度来讲,车牌的识别、票据的识别、卡片的识别、语音识别,而且百度刚刚开源了所有自然语言处理。

我们为什么不用呢?同样的道理,我们来看像IBM的这块出现什么应用呢?这个时候会发现,从IBM来讲可以做什么。第一:任何一张图片他都可以识别图片里面的内容,然后给图片自动写标题,这张图片什么意思。而且它可以从手写的文字中自动识别这些文字什么意思,变成我们所说的文本在后面。同样的道理,我们可以看到这个里面可以识别这些文本还可以识别这个人是谁,名人是谁,而且识别这个里面的位置是哪,比如说意大利什么的。所以这个里面要做到这一点应该怎么做呢,我就启动一个我的远程机器登录一下我学校实验室的服务器。现在就启动了我实验室的机器,我进到这个实验室的机器看看。

启动这个机器以后是我实验室的服务器,因为它带着GPU,所以在这个里面我先把操作的过程拷进来,我复制一下。然后我启动一个新的终端,粘过去,它快速运行之后你可以看到,这是我拿到的视频,它可以识别这个视频里面出现什么内容,而且这个内容应该有一个内容记录了每帧上的内容。这个里面是记录这个内容的,你看每帧的内容是什么,当然我也可以直接用摄像头做这件事。这些过去是处理不了的,但是今天可以处理,如果我们能够利用这些大数据处理视频、图像等等这些内容,也许我们的自动机扫描货架摆放就可以完成。但是这个过程由于没有人专门训练碳酸饮料的品牌,我们需要自己训练。

同样今天在大数据领域有一个非常重要的应用场景,这个场景是什么?大家可以看看人工智能的应用。我们看这个,这个是什么?换句话说,你手势只要动就可以把这个手势变成一个内容,这样就可以控制它。比如说你的手在这里动,动着就可以拍出来,然后转换。我们看一下这个例子可以用在什么地方,第一你做什么手势可以知道脸还是头。比如说这个可以识别所有树叶是什么内容,比如说这个树叶你不懂,孩子也不懂,它就告诉你这个树叶是什么植物。它可以做医疗检测,癌症,细胞的大量的学习。它可以做什么?度量房间的空间,计算机学会这个空间一照就知道这个空间是什么样的类型。同样识别它是不是一个热狗,这个是什么意思?就像这里有一个桶,有一个尺度标在这里,照相机拍下来一千张照片,将来照相机一设置它就知道这个桶里装了多少水,因为有这样的度量。

同样的道理,这是音乐,像这个数字输进去也知道,这个挺有意思的,大家可以看到这是咖啡,通过大量咖啡的照片就可以知道,将来摄像头就可以识别这个咖啡装了多少量,因为后面就是一个体量。我现在已经装了56毫克或者多少,这些都是计算机在学。所以这个角度来讲,人工智能未来很多东西主要在计算机视觉上,当然也包括语言上。其实今天英文不好没有问题,因为只要点击右键翻译成中文,这个时候我们就可以发现基本上没有任何阅读障碍。所以世界上301种语言,语言翻译基本上阅读没有障碍,这种进化就非常快,这些都是人工智能的特征。
但是一本小说是不是大数据呢?《红楼梦》是不是大数据,有没有分析《红楼梦》里面的人物关系,分析里面主要设置的场景是什么,所以你看人们经常做徐霞客大数据,看看徐霞客写了那么多书,写了那么多诗都去了哪,寻找他的轨迹,因为他作品提到了这个东西。再比如说对《人民的名义》这个小说我们进行分析,这些都属于大数据范畴,过去我们处理不了,现在可以处理了。

其实我们更关心的是区块链是什么,这个是基于区块链的维基百科,就是以太坊写一个东西大家共同认证,超过三个专家认证了这个东西就是永远的,维基百科就不可更改了。同样的道理,今天的比特币到底是什么,有一些人经常做交易,所以这是一个交易行情实时的,今天已经跌到八千美金了。这个里面有BTC,BTC叫比特币,LTC叫莱特币,ETH叫以太坊,后面还有以太现金,还有比特现金,这什么意思?这个里面就用这个表述一下。
其实有一个函数,这个函数叫SHA256,这是一个函数,这个叫哈希安全的算法。然后只要扔进去一个X就会得到一个字符串,这个串可能是64位的串,这个串可能是6A987S320013,就是这样,这么一个数。对这个X稍微一个动作就会产生巨大的变化,这个串就会巨大变化。这种串特别多,就有一个叫中本聪的人设计了一个,他要求一个东西必须满足0000……,反正一大串的数,他必须满足这个。怎么找到这个东西,这个时候就要认证一个块,什么叫块?块就是说,我们假如有一个账本,只不过我写了账本的一页纸,这张纸就是A转给B多少钱,50,B转给C30,A转给D20,这就是一个账本。账本实际上要记录交易过程,如果这个账本里面交易,得保证他有钱,所以如何做到资金平衡。这个时候A有15个币,他要交给B是10个,但是还有5个哪去了?所以这笔交易还会记录15个币他给了A,5个,这个时候账本就平衡了是不是,至少这笔交易是平衡的,所以这是第一个块。
零块叫创世纪块,这是2009年1月3号由中本聪投入,他开采的第一块。第一块除了记录的账本,其实还有一些东西,昨天说了有一个哈希值,这个哈希值是前一个哈希值,还有一个时间戳。除了时间戳以外还有一个代号,这是第几块的标志。时间戳保证这个量能够延续下去,时间戳也很重要,也是表示连续下来,但是这个块和下一个块就是靠这个数决定的,这个数是谁?怎么能够知道,那只好猜。所以有一种人叫矿工,当有一笔交易发生之后,他会把这些交易传播给网上所有的节点,所有节点里面就有矿工开始去认证这个交易对不对。
谁记账呢?谁记的好,谁记的快我们就奖励这个人。这个记账实际上就是输入这个x加上一个Nonce这个东西就猜1能不能猜,2能不能猜,可能上百次,上千万次,上亿次才能猜出一个东西来。谁要是猜到这个谁就具有把这个块记录在这个链里的资格,那么这个人会得到比特币的奖励。所以,比特币实际上是一个奖励机制,奖励这些矿工去拿到比特币,最开始的时候是50个币,后来4年以后转到25个币,每次衰减,现在达到12.5个币。再往后会发现越来越难。
做这个的过程中这个账本的页数不断增长的,在这个里面会发现只要改里面任何一个东西都会让下一个东西失效,因为这个里面的哈希值是基于这个里面的值算出来,所以他一改动,这个时候就是篡改。所以这个比特币整个的交易过程中就不断往前走,这个账本就一页一页的往前走,这个过程中设置了2100万的终结的比特币,就是2140年这个比特币将挖完。那么以后谁来当矿工呢?这个时候就会有交易费和fee奖励机制。
因为要做一个交易,要告诉别人我们俩要做一个交易,经常需要支付一个费用,这个费用就保证矿工愿意给你挖,帮你实现交易,将来都是支付交易费用。这个过程中比特币形成这样模式,但是会发现一个账薄里面有无限长的一页一页纸,每页纸记账10分钟,10分钟完成一个记账,不多不少,如果这个交易特别少,记账很快的话会把这个东西的难度提高。如果这个交易非常难,它会把这个减少,你会发现每个人都在挖,那谁挖的是最好的呢?谁最快呢?所以最后这个账一定记录在下一页的时候就是这个链最长的那个上面,当然也会在时间上进行相应的补偿。
综合考虑加起来以后确定谁有权写入下一个链,因为写一个链不就是有奖励嘛,一旦写完了,整个的账单就广播给所有节点,所有节点都备份一份。你想篡改吗?其实篡改的目的就是改账本,就把这个账本又改一下,你要改这个东西就要什么,因为最长的在走,从后面再算肯定速度赶不上前面。除非你动员51%的人这个节点篡改这个帐本。以太坊当时没有设计好,所以有人利用它协议的缺陷篡改了这个东西,这个就叫分叉。同样还有人认为,这个里面就一兆空间,内容太少了。所以人们希望这个里面的空间变大一点,空间大一点是不是交易的量大一点,记录的东西就多,就像我们笔记本一张纸。那张纸这么大能记多少,所以希望里面多一点。
然后就有人开发了莱特币,比特币大概1秒钟可以处理7次交易,10分钟,一次记录。莱特币就是2.5秒处理一次交易,所以这个时候就有人发明莱特币,但是所有这些都会发现这个里面都不复杂,都只记录账本。为什么?中本聪发明的目的就是为了解决数字货币这种现金交易的账本,所以他只是记账,和其他都没有关系,就是为了记账用,就是为了现金交易用的。但是人们发现什么呢?如果这个账本能这样做,那干吗不让这个里面干一点别的事呢?所以就有人开始利用这块建立一个叫以太坊,这个人大概23岁,是一个非常牛的,长的跟马云差不多的那种人,但是他很牛,开发了以太坊。他希望这个币一直用,在这个上面当成操作系统开放一个叫DAPP的东西。这个东西不做任何限制,为什么?谁都可以开发这个东西,开发的软件叫做Solidity,是一个类似Javascript的程序,非常简单用于开发智能合约。所以这个应用当中大家就发现原来比特币不是我要的,而是以太坊。因为以太坊是一个操作系统,就相当于拥有了一个操作系统可以开发各种各样的协议。
但是还有人又解决一个问题,这个以太坊谁都能做,里面也要靠费用的,所以有以太坊,还有gas,乙醚等等。后来又有人开发了一个叫做EOS,这个EOS和它一样,但是它限制了,不是谁都能做的,而是它限制了我认可的那些DAPP才能在这个上面开发,但是最大的价值是什么?就是这个时候以太坊也需要通过挖矿、耗电力的方式解决问题。那么未来已经说明了,大概在6月份就会转成不是工作证明,就是POW叫工作证明,这个叫POS,S就是权益证明。
用权益证明,就是说它不要挖矿了,因为挖矿耗电,谁有钱,谁出钱多,出现了转到权益证明的,以后不再挖矿了,而是谁出钱承担责任。
最后耽误一点时间讲讲区块链有什么用。对于我们这个行业来讲,其实我思考也不成熟,但是主要用在一个叫做认证。这个认证是去中心,去信任的。我们之间第一数据共享,就是说将来这个区块链的块不是账本,而是记录了我们这个文件,可能就是就是我们调查的数据,这个数据能不能用,能不能互相共享的认证。由于它一旦被共享就永远写到块以后就不会再更改,就是资产就转移过来了。所以这个时候我们在行业里面,第一:我们联盟之间的交易,甚至一个Q1这道题的答案,我们可以互相交换。我们互相购买,为什么?这个购买只要协议好了,只要上链大家都可以交易这个数据,数据的安全性就有保证,这是第一个。
第二个,如果你是一家企业你有10万个伙伴,如果让所有的伙伴都能进到你的链里面,那么发钱就变得简单了。因为可以支付他一种币,这种币他会相信你一定会给他,而且你也相信这个人一定会被认可,因为他可以提交驾驶证。这个就是我说的哈希加密认证,这个放进来以后我们可以不需要知道你知道答案,我就知道你答案,这句话能理解吗?我不需要你是谁就能知道你是谁,认证你是谁,这就是去信任的一个很重要的过程。那么这个过程,当然除了我们这样一个链的方式还有就是和甲方。
将来我们加入在甲方的信任之间可能会有一定的价值应用,当然最典型的,我最感兴趣的,包括像音乐币。为什么呢?我是音乐发行,现在我只能靠QQ音乐。QQ音乐多少人点,一点是不是支付给QQ了,我也不知道你会不会给钱。现在就是两方,一个叫音乐人,一个叫听者,彼此之间通过区块链的应用,你发行MP3的歌曲给他,只要一点这个钱自动进到你身上,你再分给你所有的伙伴。所以在协议上事先要说明,大家不要对智能协议有什么疑惑,未来的智能协议任何人都可以编,跟你要写你要的规则一样,不需要你写代码的,因为这些东西慢慢都在开发出非常适应于一般商业活动的这些活动编这些程序,就像写规则。所以这样想象一下,一个出版商,如果是电子出版就一定能够在这个链上谁看了一本书就支付给我,我就支付给那些帮我写书的人,反正就是整个的生态链。
所以有人说未来的区块链真的是一世界计算机,并且是制度上的创新。什么叫制度创新,去国家,去银行、去企业。这个过程中这是这个区块链行业,其实最重要现在的区块链行业就是分两块,一个叫币圈,币圈就是天天炒币、发行币、众筹,用币怎么创业这些人。有一些人是基于区块链的链圈,主要是开发各种各样的应用协议,所以我在咱们的群里给了一个创业的白皮书,看他们怎么利用区块链做事。因为所有区块链的创业都是开放的,换句话说,你的商业计划书所有人都可以查到。就像我们今天看到所有比特币的交易我们每笔交易都可以查到,都可以追溯到。
刚才我说了,2009年1月3号挖出第一个创世纪块,中本聪那个账号挖出一百万个币,但是到现在为止没有做任何交易,我们一直知道这个账户,但是我们不知道账户后面的人。同样我知道你有一个账户,但是不知道这个后面是不是张总,但是我们可以做交易的。所以这个人的账户,我刚才说了,如果一个比特币达到6万美金,有可能这个人就成为世界上的首富了,当然了,这个过程很可怕的。未来区块链的应用会非常多,几乎有一种说法,所有能够用javascript编的东西都会用区块链的智能协议重新编一遍。所有用电子上交易行为的特征都可以另外再上链,因为上链的过程是没有任何成本的。因为不需要买服务器,所有人都会参与。你不需要云计算,为什么?所有人都在用云计算,每个人的节点都在帮你,但是至少三个人以上玩,你自己玩不了比特币的。
目前全球对比特币都有监管,但是区块链都在发展。发展成什么样呢?今天的区块链技术就像我们突然会用互联网一样,我们最先用的东西,叫发邮件。现在区块链可能比发邮件这种应用场景还少,还初级,但是人们对它的认知已经远远跑到很高了。所以目前问我区块链有什么应用大家都在探索,区块链的应用相当于我们互联网刚刚开始可以发邮件的功能一样,谁也没有想到我们互联网今天可以做电子商务,谁也没有想到互联网会成为大数据产生的重要资源,改变社会的经济结构。
所以区块链是制度的创新,制度创新很少发生,一旦发生就是颠覆性的。而这种颠覆性由于受到传统的,刚才说到被去掉的这些人的可能不高兴,所以可能会受到各种各样的干扰。
我的微信公众号会经常发一些区块链这里面的内容,我刚才正在写区块链的历史和相关概念,一会儿可能会发出来,你们要是愿意可以关注沈老师的微信公号,我也不知道怎么加,回头发到群里面,那就这样。

沈浩

中国传媒大学新闻传播学院,教授,博士生导师。
中国传媒大学调查统计研究所,所长。
中国传媒大学大数据挖掘与社会计算实验室,主任。
中国市场信息调查业协会,副会长
中国信息协会市场研究也业会(CMRA),会长。