在一年前差不多的时间,写过一篇文章《跨界初期的思考》,以一个制造业大数据局外人的视角,总结了一些所见所闻和所感。一年之后,重新阅读一遍,似乎多了一点无奈。

一年的时间,从架构师到项目经理,再到产品经理,目标不算太鲜明,但打造出了一款还算看得过去的大数据产品。以汽车制造服务行业为背景,从世界知名的品牌企业,到初创混乱的服务型企业,这款大数据产品都略有用武之地。艰难起步,窃感欣慰,个中滋味自不必多言。2018年的中国数据库技术大会,我也将以Topic的形式分享给大家,年内会完成该产品的部分开源。

因为这段做产品的经历,有机会深入到各个制造业企业调研,了解到更多制造业大数据的现状和发展方向。本文做一些粗浅的总结,同样是主观态度的,非官方的,没有废话的。也许在不久的将来,自己都会推翻这个里程碑。

一、数据银弹

众所周知,近年来,物联网蓬勃发展,在未来十年乃至二十年,制造业将是最大的数据制造者。各大互联网公司意欲深度渗透制造业,而各大制造业巨头也不安分地搞起了互联网+。于是乎各种形式的,“各怀鬼胎”的合作,就围绕着大数据的高地展开了。这让人很容易联系到,上世纪八九十年代,制造业国企与外企的合作,国企打着以市场换技术的主意,外企的算盘里只想着侵占中国市场,一场轰轰烈烈的博弈延绵至今。新一轮的博弈中,不论是制造业还是互联网业,都想着以最快的速度占领高地,制造业的优势是实体,互联网的优势则是技术。天下武功,唯快不破,博弈一旦展开,骄躁的情绪也随之蔓延,内心中总有一个声音在呼喊:“给我银弹,我要胜出!”

今天,大型的制造业都会说我们在搞“互联网+制造”,我们有自主的云平台,我们有大数据平台。没错,是有了。其目的是告诉互联网,我们也有技术。但相比于大型互联网企业来说,那些只能算是博弈过程中的附加筹码而已。

互联网眼中,制造业的肥肉在哪里呢?我们要从制造业的主要数据构成来看了:

  • 传统数据(制造、营销、财务等)
  • 互联网+制造数据
  • 工业大数据(制造流程与过程等)
  • 物联网数据

2018年物联网数据占比约为70%,物联网发展两三年的数据,其数据容量已远远超过传统制造二三十年的数据容量。而五年后的2023年,则传统数据基本上可以忽略不计了。

显然,互联网要的肥肉就是物联网数据。反观制造业需要从互联网的拿到什么呢?更多的还是数据。最吸引制造业的数据就是:

  • 用户数据(画像、行为等)

 

对这部分数据的缺失,主要是制造业这位老大哥素来不重视用户数据的沉淀,或者说早年根本没有建立起用户的概念。获取大量的用户数据,也是智能制造的一个重要目标。

      从根本上来说,互联网企业与制造企业的合作,就是物联网数据和用户数据的合作。

 

二、技术之名

互联网企业与制造企业,这场以数据为导向的博弈中,各自手中都有对方想要的肥肉,各自又都想着要对方的,而少一点共享出自己的。在大数据技术上的落后成了制造企业最大的诟病。对于大部分制造企业来说,大数据技术能力高低取决于其供应商大数据技术能力的高低。

物联网数据虽好,但不是所有制造企业都能有的,即便有了,也不是所有部门都能有的。然而,大数据风潮如此之甚,无法跻身其中,如何自处?各类国内新闻每天都在告诉我们,如何跻身其中:

  • 数据报表

 

只要有数据就能出报表,简单粗暴、直截了当,而且老板们爱看。其实,很多企业也都是这么干的,搭建一个Hadoop平台,把数据从数据库和数据仓库,搬到Hadoop平台上,利用MapReduce或者Spark跑一些分析报表。不必觉得这样很低级,某大型互联网企业每年年底给用户出的一份总结,不也是这样的报表吗?

以技术之名,用最合适的工具,做其最擅长的事情。对于传统数据的应用,Hadoop平台就是一个大数据的神话,而爆炸式增长的物联网数据才是Hadoop平台的正确打开方式。为什么这么说呢?我们应用摩尔定律来解释一下吧。下图中,假设硬件成本投入一定情况下,根据摩尔定律,其硬件的计算能力每18个月翻番。在2018年的时候,假设物联网数据与传统数据相同容量,且硬件计算能力支持4倍该数据量的计算需求。可以看到随着时间的变化,传统数据量的增速远远达不到硬件计算能力的增速,而物联网数据在第二年就无法获得硬件能力支持。

物联网数据的存储和计算,需要更易于扩展的Hadoop平台,而传统数据则更适合于数据库和数据仓库。

质疑完硬件能力,就该质疑软件能力了,这也是普遍存在的问题,报表在数据库或数据仓库跑不出来,要用Hadoop平台,Oracle过时了,Greenplum支持不了我的数据量。……

没有不行的技术,只有不懂技术的人。Hadoop并不是等同于大数据,Oracle、Greenplum同样可以做大数据,大数据只是概念,技术手段并无绝对界限。下面就用数据来打一打脸吧。

用1个节点的Oracle,4个节点的Greenplum,10个节点Hadoop(Parquet外部表)来对比一下SF=100(数据容量约100G,主表6亿数据量,这也是大部分制造业报表一个普通模型的数据量)的TPC-H的基准测试吧。

可以看到,对于这样数据量级的分析来说,数据库和数据仓库技术相比于HIVE并无明显劣势,而采用了内存优化的Impala(或者Spark)则较好一些。当然,数据库和数据仓库也可以采用内存技术来优化效率。

Haoop≠大数据,大数据的核心是数据的应用,是深度学习,是预测未来趋势,是贴近制造服务制造。如果说数据是银弹,那大数据技术没有银弹。兵无常势,水无常形,应用之妙,存乎一心。BigData is not only Hadoop!如果只是为了大数据而大数据,搭建一个Hadoop平台,使用一些开源内存技术,处理传统业务也是无可厚非的,毕竟概念为王。

 

三、人才洼地

数据是垄断的,技术是共享的,人才则是有向心力的。半多年的时间,从成都到西安,从厦门到哈尔滨,最后再回到上海,去招聘大数据方面的应届毕业生,不论在哪都能跟互联网企业的招聘者不期而遇。与之相比,制造企业对于大数据人才缺乏吸引力。这并不奇怪,就好像一流的电子、机械方面的人才会源源不断地涌入制造企业,这是一种品牌行业影响力。

制造企业与金融行业的做法并无两样,不惜代价疯狂地从知名互联网企业挖人才,希望迅速打造出人才高地。记得有一次技术大会上,某位领导一味鼓吹一年里招了多少人才,多少名校博士,多少硕士,甚至报人才的名字呈现于PPT上,不经哑然失笑。人才这东西对组织的依赖性太强了,一旦脱离组织,个体能力将大打折扣。更为糟糕的是,不同企业的背景,造就不一样的理念,团队成员的冲突在融合过程中,一波未平一波又起。

人才洼地是因为制造企业多年来IT人才洼地直接导致的,核心IT技术过于依赖于外包。如今,因为物联网的兴起,制造企业被推到风口浪尖,需要IT和DT方面发力了。但是,罗马不是一日建成的,过往欠下的债还是要还的。

没有沉淀,就很难有所发展。戒骄戒躁,花上几年的时间,做好数据和技术的沉淀。像抓生产制造核心技术一样,把大数据核心数据和技术抓住自己手里,几年之后,必将有所收获。

      所谓银弹,其实并不存在。无外乎就是把核心数据牢牢抓在自己手里,融合一批有实干能力的人才,花上几年的时间,沉淀下一套技术与产品。那时候,行业的影响力会告诉我们,银弹其实就在手中。

,
Trackback

no comment untill now

Add your comment now

切换到手机版