前言
写给刚入学或对大数据感兴趣的你。可能你并不了解大数据,只是在选择专业时,听亲人朋友说了一句”选择大数据吧,现在很火“;只是听到身边的人或者广告上说,大数据“工资高“. . . . . .然后你糊里糊涂选择了大数据。那就从生活的体现出发,告知生活中的大数据。从企业的角度,看待大数据技术的用途。当从你要踏入大数据行业的时候,你有没有想过你要怎么计划去学习呢?
为什么需要大数据技术
大数据时代已经来临,大数据是众多数据信息的集合,随着社会的发展,我们周围的数据信息越来越多,一切的信息都可以变成数据。仅仅是通过我们人脑从这些数字中找到你想要的东西,是人力所不能及的。而大数据技术就是为了解决这个问题而产生的,通过大数据技术,把这些数据信息进行分类处理,然后把我们所需的数据信息呈现给我们。就像工业革命的成功,用机器代替人的手一样的逻辑,为我们查找数据信息带来了很大的便利。
在购物网站上浏览物品,看了好多同类的商品,唉,发现没有喜欢的,犹豫半天关掉购物app。有点累,去短视频网站刷刷视频。刷了一会儿,跳出一个广告,正是你近期需要买的品种。有没有反思,短视频网站怎么推广告这么精准。这就是大数据的用户数据分析。
某些平台使用的智能客服机器人,就是利用大数据,借助深度学习训练出来的。
在刷刷抖音过程中,我对吃播视频感兴趣,然后,下一个,下再一个,大概率就是吃吃吃的视频。
买机票、订外卖、订酒店等等在线业务,早已经成为消费者不缺或少的部分。前段时间的报道,北京的韩女士使用手机在某电商平台购物时,中途错用了另一部手机结账,却意外发现,同一商家的同样一件商品,价格贵了25块钱。啧啧啧,这是大数据不好的一面,也就是所谓的大数据“杀熟”。
大多数银行都使用这些大数据来识别身份盗用。例如,如果一个工薪阶层在月初购买小额杂货,但突然间银行发现全城的加油站和便利店激增,那么该银行就会知道情况正在恶化。他们可能会与客户联系,询问有关最近的购买交易的信息,以确定客户的卡是否被盗并需要冻结。
佩戴健康手表等设备可以监控日常活动和睡眠。一个保持健康和健康的好方法。大数据与技术相结合可以改变我们的生活方式,帮助我们自己追踪免疫力,以确保我们保持健康的习惯来抵抗冠状病毒大流行。
大数据对金融安全,生命健康,生活娱乐,物流,教育上对我们的影响已经越来越重要。
你也一定在公众号中/朋友圈看到一些广告,提示你一下,你看到的广告和别人看到的广告有所不同,这就是你的习惯被大数据分析所记录。比如下面的这条广告。
而企业在重视获取大数据的同时,开始意识到要抓住大数据的机会并从中获取商业价值,需要使用先进的分析方法。从前我们通过对市场、行业和业务洞见来分析市场形势。
大数据分析是全量数据,精准体现数据价值。但是,我们还需要引入新的技术来提升解读数据价值的能力,比如机器学习和预测能力。
在数据的搜集和处理过程中,建立数据属性标签。我们常把数据属性标签比喻成脸谱勾画。就是所谓的用户画像。它就是根据用户的目标、行为和观点的差异,将他们区 分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、 场景等描述,形成了一个人物原型。
所有它可以很精准的为你达到你的需求。
大数据风险控制,企业可以通过运用大数据构建模型的方法对用户进行风险控制和风险提示。
等等还有好多......以后可以慢慢了解。
大数据团队干什么
数据采集:业务数据和用户行为数据的采集到大数据平台。用的框架:datax/sqoop,flume等等(列举框架只是举例,以下也是)。
数据清洗:原始数据中如果夹杂着大量的不要的特殊字或者脏数据,会在我们筛选数据或统计时带来一定麻烦。人工录入或者数据爬虫等多方面的原因,会出现缺失值的情况,这就需要我们寻找,去做特殊处理。有些数据需要脱敏处理。电话,身份证号,等等信息。用到的框架:hive计算。
数据存储:清洗后的数据可以落地入到数据仓库。对于数据仓库是重点,一般会采取多层处理去存储。用到的框架:hive,hbase,es,hadoop,clickhouse或者kafka。
数据分析:有了上层的数据后,不管是实时处理数据,或者批处理数据。这个时候明确业务需求或产品需要进行计算,推荐,用户画像标签,风控,更或者为人工智能做数据准确度的训练等等。用到的框架:hive,即席查询框架(kylin,impala等等),spark,flink......
数据展示:用数据表格、数据图等直观的形式展示上游数据计算分析统计的数据。用到的大多数的web的一些东西:公司内部的web大屏,supset,帆软等等。
大数据开发学习路线
第一阶段:Java先行;Mysql+JDBC。
第二阶段Hadoop生态:Maven;Linux;Shell;Hadoop;Zookeeper;Hive;Flume;Kafka。
第三阶段:数仓整体流程(项目练习)。
第四阶段:Flink(推荐);FlinkSQL;Clickhouse。
第五阶段:实时整体流程(项目练习)
对于上面学习路线,只是简化版。有人说,看了大学科目安排,还要学数据结构,数据库概论等等,我还要不要学?告诉你:学,当然要学,非常重要。对于转行的,可能时间很仓促,所以先有侧重点,然后多学习没坏处。
附照一张,留作纪念,代表在澳门沙金娱乐的岁月(拍于12号楼224宿舍6床位)。
看完此篇,如果有校友对大数据感兴趣,可以关注我公众号【大数据左右手】,感兴趣的同学来找我吧!
(文/图:王博——14计科)