公需科目资料4
【字体:
公需科目资料4
作者:chenyong    通知公告来源:本站原创    点击数:    更新时间:2019/9/27

第四章 智能时代的数据本源——大数据

第一节 大数据的由来

什么是大数据,大数据是不是就是互联网上的各种数字信息的总和,它是虚拟的吗?所谓的数字经济会不会是个泡沫?如果你这样认为,就说明你还没有真正认识大数据。我们先来看看大数据的4V特性和技术特征,就能更好的理解到底什么是大数据。

一、大数据的4V特性

数据度量(容量:Volume):数据度量可以反应一个数据的大小,那么多大的数据才算是大数据呢?大家都知道计算机的容量单位,我们现在在屏幕上看到的红色字体的都是常见计算机容量单位,每一个容量单位的进制是1024。比较小的单位是MB,一本76万字的《红楼梦》所占存储空间是1.66MB。一个32G存储空间的手机,可装下12337部红楼梦,但只能存放4000多张照片。一部IMAX 3D的标准时长电影,大约需要500GB的存储空间,和我们自贡市图书馆的藏书总量差不多(截止到201612月,藏书28万册,总容量450GB)。最球最大的图书馆——美国国会图书馆(截止到201612月)藏书1.5亿册共计数字存储空间约为235TB。这些单位都不是大数据的单位,因为它们太小了。全美共有3689个学术研究图书馆,信息总量约为2PB,人类从有语言开始,所有人说过的话的总和约为5EB,地球上所有沙滩的沙粒,一粒一粒的数约为1ZB。而大数据的度量单位就是从PB开始的,判断一个国家是否真正进入大数据时代的基本标准,就是这个国家的数据总量是否突破ZB级别,我国是在2016年,数据总量达到ZB级别的。现在全球的数据总量正处于爆炸式增长期,年增长率达到58%以上,也就是说两年产生的数据总量是就超过了人类有历史以来的数据总和,每两年数据总量就要翻番。中国的大数据增速要高于最球平均水平,截止到2016年,我国大数据占全球数据总量的13%,预计到2020年后占比将超过20%

数据类别(类别:Variety):大数据无处不在,每天我们上网点击的网站,链接、搜索引擎搜索的各类信息;每天的实时通信,包括电话、微信、QQ等信息;每天办公使用的各种文档,电子邮件;每天运行的计算机应用程序和手机APP;各种各样的社交媒体生成的信息数据,国外的Facebook、推特,国内的新浪微博、QQ空间等;大量的音视频及分享网站上的资源;物联网及其设备的传感器数据信息:WEB4.0工厂的自动化信息、交通管理中的监控信息、可穿带设备的个人健康监控数据等。大数据的类别庞杂而多样,只要能数字化的信息都是大数据的组成部分。实际上我们日常生活中的所有信息数字信息占比已超过95%

因为大数据与互联网的密切相关性,导致互联网公司几乎都是大数据公司,特别是大型互联网公司,我国超过80%的大数据都被中国互联网公司所拥有。从国家层面而言,这会带来一定的网络信息安全隐患,如何来杜绝这种大数据信息安全的不可控性,确保大数据的安全,我们会在第三个问题中探讨。

实时有效性(速度:Velocity):说到速度,大家都会想到高铁动车,复兴号京沪线已达到350KM/h,已然成为了中国速度的代表。而发生在2011723日温州市境内的高铁甬温段动车追尾事故,却是一起数据处理不够及时,信息沟通严重滞后的典型交通事故。在大数据处理速度方面,IBM公司有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了,所以真正有价值的大数据都是实时的。大数据的实时有效性体现在两个方面:一是数据产生得快。有的数据是爆发式产生,例如,欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据;有的数据是涓涓细流式产生,但是由于用户众多,短时间内产生的数据量依然非常庞大,例如,点击流、日志、射频识别数据、GPS(全球定位系统)位置信息。二是数据处理得快。正如水处理系统可以从水库调出水进行处理,也可以处理直接对涌进来的新水流。大数据也有批处理(“静止数据”转变为“正使用数据”)和流处理(“动态数据”转变为“正使用数据”)两种范式,以实现快速的数据处理。只有高速处理的大数据才会产生价值。

大数据的价值(价值:Value):有人认为大数据是互联网上的一种虚拟产物,并不会带来实际性的价值,这种认识显然比较片面或比较传统,就好像讨论实体经济与网络经济一样。实际上以网络经济为主的数字经济2016年已经占到了GDP比重30%以上。所以说大数据是很有价值的,这是大数据的本质,它就是一种生产资料和资产,完全可以等同于煤、石油、森林等国家性资源,美国前总统奥巴马将数据比喻为未来的石油,视同为与陆权、海权、空权同等重要的美国核心资产,是美国综合国力的重要组成部分。我国在2016年将大数据纳入国家战略性资源。

中国现在最大的互联网公司腾讯集团,它的创始人兼CEO马化腾在多次演讲中都提到:腾讯公司最大的资产不是QQ、微信,也不是网络游戏,而是全球近20亿用户的大数据信息,数据本身才是腾讯公司的立身之本。

2017317日,腾讯大数据系统——腾讯云以1分钱成功中标夏门市政务外云服务系统,这次中标,腾讯公司显然看重的是数据本身带来的价值。

这个以大数据为根本的公司,其大数据到底为其带来了多大的价值呢?腾讯公司2004616日在香港上市,当时招股价每股3.7港元,10年后股票上涨超过600港元,随后进行了1:5的拆股,拆股后股票继续上仰,至今股价已超400港元,市值超过5000亿美元,当之无愧的亚洲第一上市公司,全球排名第5。一个将大数据作为核心资产的公司,股票与市值的高速增长体现了其价值性。

2016年我国数字经济规模已达到22.4万亿元人民币,占GDP比重达到30.1%2016年我国数字经济增速高达16.6%,分别是美国(6.8%)、日本(5.5%)和英国(5.4%)2.4倍、3.0倍、3.1倍,增速位居世界第一。未来大数据的市场规模会进一步扩大,据预估我国到2020年后大数据市场规模将超过8千亿人民币。

从大数据的4V特性我们可以看出:大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

二、大数据的技术特征

云存储:大数据的度量性决定了其主要的存储载体只能是云存储,海量的数据信息是不可能存储在单一设备上的,只能采用分布式的云存储方式。大数据类型的庞杂性,导致大部分数据信息已经是半结构甚至是非结构化的数据,基于云端的分布式数据库成为了大数据存储的基本单元。

云计算:海量的数据、庞杂的种类、复杂的结构导致了大数据的处理运算不可能由单一设备完成,基于云计算的网络多机协同工作是大数据现今最主要的计算模式。

大数据算法:大数据特性决定了常规的数据处理算法已经不适应大数据的处理,更加智能、更加高效的数据处理算法是大数据实时高效的保证。

第二节 大数据的应用领域

一、大数据在各行各业的应用

大数据不仅有非常大的价值,同时也已经深远的影响了我们的工作生活,大数据的应用领域十分广泛,我们可以从和我们日常生活息息相关的衣食住行四个方面来看看大数据在各行各业的应用。

“衣”——大数据在零售行业的应用

现今的零售行业已经发生了翻天覆地的变化,在中国最大的零售商已经不再是实体的大型商场了,基于互联网的电商平台成为了零售行业领头羊,大数据在电子商务上发挥的作用可谓是如鱼得水。

精准广告:从2015年开始,我国最大的广告平台已经从传统的电视广播转为了覆盖面更广的互联网平台。利用大数据分析,互联网甚至可以根据个人喜好做出针对个人的精准广告投放。如果我在某个电子商务网站上看了一款单反相机,即没有放入购物车,也没有收藏网址,仅仅是浏览了一下网页,从此以后连续一周甚至几周,我再上网访问其它网站,甚至是用手机浏览新闻,哪款单反相机的广告就会时不时跳出来提醒我一下,不要忘了你感兴趣的相机哟。显然这种基于大数据的精准广告比电视上的广而告之更加具有优势。

精确营销:有了精准的广告投放,再加上对用户上网行为数据的收集分析,大数据可以很容易知道你对某个商品的购买欲望,它甚至可以做到精确到个人的营销。美国第二大超市塔吉特百货(Target)是最早使用大数据进入精确营销的零售商,他们拥有专业顾客数据分析模型,可对购买行为精确分析,并判断用户未来的购买需求。2012年,美国一名男子闯入他家附近的一家零售连锁超市塔吉特内抗议:你们竟然给我17岁的女儿发婴儿尿片和童车优惠券。店铺经理立刻向来者承认错误,但是该经理并不知道这一行为是总公司运行大数据挖掘和个性化推荐的结果。一个月后,这位父亲前来道歉,因为这时他知道自己的女儿的确怀孕了。塔吉特的大数据系统比这位父亲知道自己女儿怀孕足足早了一个月,此事后来被纽约时报报道,轰动了全美。我去年在京东上买一款平板电脑,我将其放入购物车,但没有下单,然后我每天都会观察一下这款平板电脑是非有优惠促销,看看能不能以更低的价格购买到我需要的商品,连续观察一周后未果,就在我准备继续坚守时,京东公司通过邮箱向我发来了现金优惠卷,并指定只能用于我选择的哪款平板电脑。这种利用大数据进行用户行为分析,判断用户对商品需求和喜好,并进行精确营销的技术手段已经被所有的大型零售商广泛采用。

预判发货:全球最大的电子商务网站美国的亚马逊在2016年正式投入一种新专利技术叫做:“先发货 后购买”,实际上就是一种预判式发货机制。亚马逊利用大数据分析所有用户的购买习惯,是喜欢直接下单,还是喜欢周末才清空购物车,家里的洗涤用品是喜欢一个月买一次,还是买一次就使用三个月,是品牌产品的忠实用户,还是喜欢尝试不同的品牌商品,周末是喜欢宅在家里看书,还是喜欢约上三俩伙伴去海滩冲浪。在对用户行为有了一个全面了解后,大数据可以比较精准的预估你下一次购物的商品种类、数量,以及你的下单时间,从而可以在你还没有真正购买前就先期发货,发出的货物会先存放到快递公司的转运中心或卡车里,甚至快递员的背包中,待用户完成订单后,正式发出。

精准的广告、精确的营销、预判式的发货,大数据在零售行业大展拳脚,极大的促进了零售行业特别是电子商务的发展。

食——大数据在服务行业的应用

精准服务:我国近几年服务文化产业高速发展,以电影产业为例,2017年中国电影市场总票房达到了559.11亿元人民币,比上年增长13.45%,已经成为世界第二大电影市场。大数据的应用功不可没,我们如果要去看一场电影,从通过手机查看影片放映情况开始,到我们选择电影院、场次、座位,最后通过移动支付付款购买电影片,整个过程甚至不需要一分钟,如此快捷和便利的精准服务与大数据平台的信息共享、数据关联有着非常紧密的关系,大数据不仅提供庞大的数据信息,同时也打通了许多以前不能共享数据的网络平台,使数据信息可以很容易的从个人的手机到达电影院的选座系统,从支付平台到达银行系统、再从银联系统直达院线平台,大数据在为我们提供服务时越来越精准快捷。

便利选择:在使用手机进行新闻浏览或是准备团购出去吃饭时,我们发现不管是新闻内容还是团购的推荐内容都比较符合我们的喜好,这让我们在选择服务时更加的便利,从而也提高了我们的效率。这种让手机变得更聪明或者说更能了解你的技术,实际上就是大数据加上人工智能的结果,通过对你长期使用数据的收集和分析,可以判断一个人的兴趣爱好。

消费预判:电子商务利用大数据可以预判发货,服务业通过大数据可以预判你消费,临近中午,你该吃午饭了,它会提醒你并为你推荐喜欢的餐厅;假期它会为你推荐旅行目的地;如果你还要加班,它甚至能为你叫一份宵夜。

大数据通过对个人的兴趣爱好、行为能力、消费水平进行综合分析,达到为你提供量身订做的各种服务,大数据在服务行业的应用已经改变了我们的生活。

住——大数据在公共行业的创新

环境条件:利用大数据的平台共享性,我们可以方便的获取区域规划图,以便于人们在购买住房时能对未来周边环境了然于胸。大数据在公共服务方面还能利用移动互联网、物联网、云计算等相关新技术,整合公共服务资源,而市民则可以通过智能手机、平板电脑等终端设备,方便的获得各种公共资讯。大数据是建立智慧城市的根本。

卫生医疗:2009年,Google通过分析5000万条美国人最频繁检索的词汇,利用大数据技术将美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,建立一个特定的数学模型。最终Google成功预测了2009年冬季流感的传播,甚至可以具体到特定的地区和州。大数据除了可以用于传染病的预判外,也能为广大的医务工作者提供庞大的医疗比对数据,结合人工智能可以帮助医生高效准确的判定病例。

教育设施:教育资源的不均衡是阻碍教育发展的主要障碍,大数据与移动互联网的结合能有效地打破这种僵局,优秀的教育资源可以很方便的通过网络传播,让教育资源相对薄弱的地区,也能获得和大城市一样的优秀师资力量、先进教学模式、以及更加科学的教学方法。学生可以方便的利用网络平台,通过大数据获取更多的教学资源,带来更好的选择性教育,跨区域的教育模式会越来越普及。

我国大数据在公共行业的应用还处于探索阶段,相信在不久的未来利用大数据,并给合新一代网络系统和人工智能等技术,终将会更加深入的影响我们的生活。

行——大数据在交通运输业的创新

旅游出行:在旅行之前,可以通过大数据平台查询旅行目的地的各种信息,包括交通线路、住宿情况、景点门票,甚至能判断一个景点的人数,为我们的出行提供详实而准确的数据,保障了我们旅游的顺畅和便利。

地图导航:利用移动互联网与定位系统的结合,依附于大数据平台的支撑,我们可以很方便的使用手机进行地图导航,不管是自驾出行,还是公共交通线路选择,甚至是步行,手机的地图导航系统都能为我们提供精准的数据信息。除了常规的导航应用外,通过移动手机与基站的数据通信,交通摄像头的数据采集、卫星定位数据共享等大数据的采集分析,地图导航系统还可以准确的判断交通路况,确定哪些路段有交通拥堵。

交通枢纽:传统公共交通系统在大数据的支持下,很容易升级为智能公共交通系统,乘客不仅可以在站台上观察车辆的进出站信息,也能通过手机查询每一个班次的运行时间。公共交通部门可以通过大数据动态掌控高峰期和高峰线路的情况,并动态改变发车频率和数量,使公共交通变得更加智能。

现在大数据已经广泛运用于交通行业,人们不仅可以方便的在网上直接购买机票,还能直接选择座位,利用数据信息,甚至可以不用打印登机牌,一个二维码的电子登机牌会发送到你的手机。货车司机不用再为回程的货物苦苦的等待,在出行前就可以发布自己的运输路线到大数据平台,有需要运输商品的商家会主动找到你。大数据已经开始影响我们的交通出行。

二、大数据在思维变革上的应用

改革开放四十年来,我们深深的体会到“解放思想、实事求是”这句话的重要性,有时思想上的与时俱进、思维上的变革比行为上的实践更加重要,在这个科学技术飞速发展的时代,变革思维模式以适应社会的发展已成必然。大数据在对人类传统的数据统计分析和思维模式上都带来了很大的冲击,主要体现在三个方面:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。

更多:在大数据开始广泛应用后,数据的统计分析将抛弃小数据时代的抽样模式,将再也不会有样本的概念,实际上样本就是全部数据,大数据时代在技术能力许可情况下,应尽量采用全数据模式,而传统的随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采用该方法,但是慢慢地我们会放弃它。全数据模式将开启新的数据统计分析方法。

更杂:由于采用所有数据作为样本,数据基数变得无比庞大,导致数据的混杂性这种负面的因素开始出现,数据的精确性会发生改变,绝对的精确将很难获取,更多的时候我们需要重新审视数据精确性的优略,大数据不仅让我们不再期待精确性,也让我们无法实现精确性。这就好比皮尺与哈勃天文望远镜,皮尺的精度可以达到豪米级,哈勃天文望远镜却是以光年为单位,难道因为皮尺更精确就说皮尺比哈勃望远镜更好?数据的大小,对其精确性的要求是不同的。在大数据时代,数据分析统计结果的精确性是相对的,而不是绝对的。

更好:美国的Kaggle公司在2016年举办了关于二手车质量的竞赛,二手车经销商将二手车数据提供给参加比赛的统计学家,统计学家用这些数据建立了一个算法系统来预测经销商拍卖的哪些车会有质量问题。通过大数据分析,最后结果表明,橙色的车有质量问题的可能性只有其他车的一半。这个结果对于大多数人来说都是疯狂的,这是哪儿和哪儿啊,以我们聪明的大脑得出结论,橙色的二手车凭什么质量会更好呢?难道是因为橙色的车主更爱车,或者是因为橙色的车漆更贵,被车主保护的更好?还是比较显眼,出车祸的几率比较小?如此这样,没完没了,你很快就会发现无论你怎么解释怎么去想象就是不能接受这些风马牛不相及的事情。但是大数据的魅力就在这里,完全的去除了情感和个人的因素,也没有什么所谓的专家在摆弄是非,唯一操纵这些的就是那些一脸虔诚的程序员数据分析师们,让数据以一个公平的态度来到我们面前,残忍的告诉你,这就是事实,而你不用问为什么,这就是大数据不问原因只问相关的特点。大数据不再强调为什么,而是注重是什么,大数据不再是因果关系,而是相关的关系。大数据的多而杂,确定了它的非相关性,但最终结果却是摒弃因果关系的大数据更好,价值更高。

三、大数据在行政管理上的应用

简政增效:行政管理要实现科学化、现代化,离不开基于大数据的智能化。打通信息孤岛,推行互联网+政务服务,实现部门间数据共享,大数据可以发挥积极作用。我国政府实施的工商营业执照、组织机构代码证和税务登记证三证合一一照一码登记制度改革之所以能够快速推进,很大程度上得益于大数据的应用。具体来说,就是通过建立项目并联审批平台,形成网上审批大数据资源库,实现跨部门、跨层级项目审批、核准、备案的统一受理、同步审查、信息共享、透明公开,大大简化了证照办理程序。在一站式行政审批和服务体系建设中,大数据有效的推动了政务创新,简政增效效果明显。

数据监管:随着政府各个部门原有数据的关联与共享的实现,城市开始走向智能和智慧,大数据成为了智慧城市的核心能源,在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。在大数据时代,数据的监管、成为政府政务工作中的重中之重。

优化服务:政府大数据平台的建成可以很方便为民众提供政府服务职能,能更好的体现政务的服务性,一站式的网上政务中心将会出现,民众足不出户,就能方便的获取政府的服务。政务系统利用大数据和互联网平台,也能有效的提高办事效率,减少人力物力投入,优化服务。

第三节 大数据时代的信息安全

201365日,斯诺登披露美国棱镜门事件,全球哗然。大家突然发现我们的上网数据、我们的移动通话数据是那么的不安全,掌握核心互联网技术和通讯技术的国家,可以肆无忌惮的获取他国的各种数据信息,大家开始意识到大数据时代, 一个国家的网络信息安全会直接影响整个国家的安全。

2014年,我国中央网络安全和信息化领导小组成立,习近平任组长,李克强、刘云山任副组长,成员包括9名副国级、10名正部级。并于同年的227日召开了第一次会议。网络安全和信息化领导小组将会统筹协调各个领域的网络安全和信息化重大问题,制定实施国家网络安全和信息化发展战略、宏观规划和重大政策,不断增强安全保障能力。

一、大数据基础设施安全保障

前面讲到,我国大数据信息大部分被大型互联网公司所拥有,为保证大数据信息的安全性,我国建立了许多数据中心(IDC)。截止至201612月,我国拥有超过3000个机柜的大型数据中心300多座,贵州作为国家特大型数据中心正在建设中。作为大数据基础设施的数据中心,不仅是我国广大网民上网数据的物理存放地,更是我国大数据的数字仓库,它的安全保障显得尤为重要。我国高度重视数据中心的安全,超过3000个机柜的中大型数据中心必须由国家规划建设,建立好的数据中心作为国家战略物资进行安全管理,电力供应必须确保能抗核打击。在国家的强力保护下,我国的大数据基础设施安全有了根本性的保障。

二、大数据信息存储安全保障

由于大数据信息庞大的度量值,大数据只能通过云存储的方式存储,巨大的数字信息存贮在互联网上的各种各样的存储介质上,其安全的重要性显而易见。为了保证数据的完整性,几乎所有的云存储都会使用冗余备份系统,所以在数据本身的存储安全上,云存储的安全性要比本地存储更加可靠。计算机病毒对数据的入侵可谓防不胜防,2017512日从英国伦敦爆发的勒索病毒,只用了两天时间就席卷全球,医院、学校、加油站、铁路、银行、行政单位相继受到了不同程度的攻击,个人计算机上的文档被病毒加密,无法打开,必须向勒索者付款后才能解开加密文档。此次全球病毒攻击对个人计算机上存储的数据带来了毁灭性的打击,而存放在云端的网上数据几乎没有受到任何影响,可见云存储的安全保障是可以得到保证的。

三、大数据隐私泄露安全保障

通过云存储可以有效的保障数据的完整性,但由于数据不是存放在本地计算机中,数据的可控性变得非常差,数据泄露事件时有发生。不管是我国的百度公司的医疗个人数据泄露案,还是Facebook的个人信息泄露案,隐私泄露屡禁不止,这些都说明在大数据时代,数据信息泄露和个人隐私泄露是最大的安全隐患。对个人而言,利用加密技术的云存储可以有效防止个人隐私数据的泄露,对国家而言,基于中大型数据中心的数据可控性和数据可监管性,可以有效的防止数据泄露的发生。

大数据时代的互联网信息安全不仅仅对个人有影响,也对一个国家的网络安全提出了挑战,为了真正保障大数据的安全,我们应该从三个方面入手:一个方面是法律保障,通过立法,制定相应的法律条款,对侵犯个人隐私、造成数据泄露的公司或个人要予以严厉的法律制裁,从法律上保护数据的安全性,防止数据泄露。我国自201761日开始实施的《中华中民共和国网络安全法》就是一部这样的法律。第二方面是行业自律,通过行业内部制定自律公约,对于隐私保护的原则与日常行为规范等给出清晰的解释。尝试进行第三方机构的个人隐私保护安全认证,如果满足网络隐私保护合格标准,将由第三方颁布合格的证书与 授权。这一方法与行业自律公约相结合,建立公众信任,实现自我约束。鼓励数据从业人员加大隐私保护技术的开发,未雨绸缪,在大数据时代,建立良好的大数据安全环境。第三个方面是规范个人上网行为,拥有良好的个人上网行为、文明上网,从我做起,即可杜绝一些非法数据的产生,也能有效的防范网络病毒的侵袭,更能让数据泄露的攻击者无漏洞可钻。

 “科学是第一生产力”带动了我国科学技术的发展,互联网改变了IT产业,移动互联网颠覆了整个通信业,而大数据必将创新一个新兴产业——人工智能。

 

 

 

通知公告录入:chenyong    责任编辑:chenyong 
  • 上一个通知公告:

  • 下一个通知公告:
  • 回到顶部
    版权所有:自贡开放大学         自贡市教师继续教育中心         自贡市社区大学
    电话:0813-2203943