想要成为一名合格的大数据研发工程师(Bigdataresearchanddevelopmentengineers),首先就要了解大数据软件开发这个职业,大数据非传统型的互联网数据信息,大数据也包含了很多新的特征。互联网时代的发展,每天都产生各种各样的数据信息,数据来源很广,每天都有从各方面来临的数据信息,大数据格式多种多样,非结构化数据(Unstructureddata)、结构化数据(structureddata)、excel文件等等,而且大数据数量很大,至少要是TB级别的,甚至会达到PB级别的。既然数据总量如此之多,又各种类型的都有,增长数据也很快,那数据该如何汇总并且转化运用成自己所需要的数据信息呢?这就诞生了大数据研发工程师,大数据研发工程师在充分了解行情的基础之上,发挥其自身所具备的专业技能。
先扯一下大数据的4V特征:
1:数据量大,TB->PB
2:数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;
(datatypeisvarious,structuredandunstructuredtext,logs,video,images,thegeographicalposition,etc.;)
3:商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来;
(highcommercialvalue,butthisvaluetakeonhugeamountsofdata,throughdataanalysisandmachinelearningmorerapidexcavation;)
4:处理时效性高,海量数据的处理需求不再局限在离线计算当中。
(processingtimelinessishigh,therequirementofthehugeamountsofdataprocessingisnolongerlimitedinoff-linecalculation.)
大数据软件开发工程师需要学什么呢?
我们从全国几个大城市招聘信息来了解,大数据软件开发工程师到底需要学什么及相应的月薪。
大数据开发工程师杭州(20000-40000元/月)
1、熟悉java或scala开发语言,了解python或go等语言,有3年以上开发经验2、了解hadoop生态,Hadoop,hive,HBase,Spark等,了解实时计算技术,包括storm,kafka,flume,druid等3、熟悉linux各项基本操作4、熟悉数据结构,对常用算法有所了解,有良好的数据思维5、有大规模数据分析、推荐、广告相关研发经验的优先6、有BI数据平台、数据仓库、日志采集,多维实时分析平台设计、开发、架构经验优先。
岗位职责(responsibility):
1、负责大数据平台基础组件功能设计、研发及维护工作;2、负责大数据采集、清洗、整合等工作;3、负责大数据平台文本挖掘分析等工作;4、负责相关功能设计文档撰写;5、负责BI及报表开发。任职要求:1、深厚的Java功底,多年的并发编程经验;2、参与过分布式高性能服务的设计开发过程,有大规模分布式系统的实践经验;3、熟悉HDFS/HBase/Hive/MapReduce/Storm/Spark等相关技术,有 MapReduce 程序的实战开发经验;4、熟悉Hadoop运行监控及调优技术;5、熟悉常见存储技术(Sqlserver ,Oracle, Mysql, NosqlDB、Redis、ElasticSearch),WebService/WebAPI(SOAP/json);6、熟悉Scala语言优先;7、计算机、软件工程及相关专业本科或以上学历,3年以上相关项目开发经验;
大数据开发工程师安徽合肥(5000-10000元/月)
岗位职责(responsibility):
1、大数据平台的产品及解决方案设计、开发,实现大数据存储、查询、分析、挖掘的目标;
3、对大数据(云计算)的主流技术、产品跟踪研究,设计适合公司业务的、有竞争力的方案和产品;
3、具体工作包括技术预研、方案设计、构件选型、开发、集成、优化等;
4、能根据公司产品和业务特征不断提出改进建议,持续创新、开发新产品及方案。
任职资格(responsibility):
1.计算机或者相关专业本科以上学历,1年实际工作经验
2.精通java。熟悉shell/perl/python任意一门脚本语言,有扎实的编程功底。
3.熟悉Hadoop+spark+hbase生态和常见的开源分布式计算/存储相关技术
4.精通SQL,有较好的SQL性能调优经验,理解Hive/Mysql基本原理和调优策略;有开源贡献者优先
5.有文档编制基础,能够流畅编写技术方案及实施方案
大数据开发工程师北京(15001-20000元/月)
岗位职责:
1、负责公司级的通用数据平台和分析型产品,服务于全公司各个用户产品线;
2、面向PB级超大规模数据问题,每天处理千亿增量的用户行为数据;
3、为大数据的全生命周期提供服务,覆盖数据产生,传输,计算,建模,统计分析,实验评估,可视化的全流程;
4、构建设计良好的数据流、数据仓库、调度系统、kv存储,查询引擎,数据服务、分析系统、流程规范,数据工具/产品,降低数据的使用门槛,保证系统稳定高效运行,以实现数据的最大价值。
任职资格:
1、熟悉linux编程环境,有较强的开发能力(java/scala/c++/python等);
2、强悍的编码能力,对新技术有强烈的学习热情;
3、加分,熟悉一项或多项大数据处理/分析相关的工具/框架,e、g、azkaban,hadoop,Hive,Spark,kylin,druid,flume,kafka,hbase,mesos,kubernets,redisetc。
4.对数据建模有一定了解。