17岁那年,小鲜肉遇上了大数据

本文发布于:
2015-07-02
来源:

小天说2015年,天池大数据竞赛已吸引到了全球37个国家和地区,12135支队伍报名参赛。而让我们惊喜万分的是,90后选手成为比赛的主力军,他们有梦想、敢行动,让我们感受到了新生代的热情、执着和坚持。

而在天池资金流入流出预测大赛中,一组来自南京外国语学校的同学吸引到了我们,分别是高二的谢春阳高三的杨启帆。谢同学出生于1998年,今年只有17岁,他是全国中学生英才计划的一员,在南京大学计算机系高阳教授的推荐下参加了比赛。他们凭借着对于大数据的热爱与坚持,一路过关斩将,顺利进入复赛。

天池大数据竞赛能够给到数据爱好者的,是海量的数据和分布式计算资源,却从未想过,竟然吸引来一颗颗微小而闪亮的明星!他们似乎真的“承受”着这个年龄不常有的机智与才华,他们的智慧和灵气,就像海绵里的水,吸不满挤不干。

天池,数据引爆新生代力量!

本故事来源于资金流入流出预测大赛 “Potentia”队伍,来自南京外国语学校高二的谢春阳同学。

参赛背景

我是来自南京外国语学校高二的谢春阳。我知道当听说一名高中生来参加这个相对专业的面向大学生的比赛时,我也预料到了你们也许会有的诧异。

我参加这项比赛的由头还要从去年12月我入选中学生英才计划说起。那是一项中国科协主办的培养活动,在全国的中学生中,分学科进行选拔。其中,在计算机学科全国共选出了57名同学,我们与各大高校的教授进行对接,由他们来指导我们进行专业的科学研究,以期在中学生中培养未来的科学家。

那时,读完《大数据时代》的我,很看好大数据方面未来的发展,一心想能在这方面有所学习和了解。处于机缘巧合,我来到了南京大学计算机系高阳教授和王皓老师的团队中,而他们正好从事的是大数据、机器学习等方面的研究。听完最初几场介绍算法的报告,我就已经满腔热血地迫不及待要开始比赛了。

于是,两位老师向我推荐了天池大数据平台上的比赛,我正好有时间参加的就是这项资金流入流出预测大赛了。但读完比赛介绍,我的心凉了半截。看着排行榜上北大、清华、中科院的名字,想到我们要处理的巨大数据量,又想到参赛的几千支大学生队伍,难免会对自己能否进前500都有所怀疑。“其实我想参加的是针对中学生的,数据量比较小的比赛”,我这样和高教授说。

“做大数据分析,实际操作编程能力并没有那么重要,更看重的实际上是思路方法”,高老师给了我不少信心:“在这一点上,你们和大学生并没有什么差距。只要能潜下心去分析观察,也是能够做出很好的结果的,并且在这个过程中我自己的收获一定会很多。”这一番话坚定了我参加这一比赛的决心,就算无法进入前500,也是一次很好的学习和感受机会。

考虑到一个人参赛任务比较重,我叫上了一位学校里和我关系很好的高三学长杨启帆和我共同完成,他对大数据也很感兴趣,在整个比赛过程中他也给予了我很大的帮助。

参赛过程

参赛的那几周,啤酒和咖啡陪伴着我和杨启帆的每一个夜晚。不断地修改,不断地调试,我们的生物钟也被调整到了凌晨1点睡觉,8点起床的状态。常常在接近12点的提交期限时,我们的眼睛都已经酸疼,但为了赶在当天评测前将结果交上去,也只能咬牙坚持着。当第一赛季结束,好好睡上一觉之后,最强烈的感受就是,以后再也不想当程序员了!

人们常说,一个人要想成功要经历三起三落。其实参加这个比赛也是如此。

一起一落

第一次头脑风暴,各种各样的思路都涌现了出来,分类,ARIMA,神经网络......一时间似乎前途一片光明;但只有在真正付诸实施时,我们才意识到仅仅有想法是远远不够的。就拿分类来说,要给用户分哪几类?该怎样提取用户特征?具体的阀值怎样选择?迫于现实,我们只好简化了我们的算法,而具体分组的标准也只有在几十次的尝试之后才慢慢明晰。

二起二落

脑中满是思路和想法的我们,马上开始了程序的写作。可没想到在相对基础性的编程上,我们又遇到了困难。面对着一张连excel都打开不全的csv表格,看到论坛上的各路大神使用的Python或R,只会C++和Excel的我们再一次感受到了差距和失落,一时间无法继续。面对着几种低效率工具结合所带来的不方便,我们只能在一次又一次操作中锻炼自己的熟练程度,又自学了SPSS的使用,这才让我们至少能够将任务完成。

三起三落

当我们用分类,ARIMA,再加上我们自己在数据中发现的规律一举夺得111分的成绩时,心中的喜悦相信是每一位参赛的同学都能理解的,一时间又对后面的比赛充满了信心。然而接下来的几天,99分,108分,105分,我们的分数止步不前,新加入的调整方法不仅没有效果,反而使我们的分数降低了。就像一个偌大的路口,我们尝试了几条小路均告无终,回到路口的我们又不知该向何处前进。

面对这样的起起落落,我很庆幸我们坚持走了下来。走到最后,就是一种胜利。看到我们进入前500名,不用说,自然有浓浓的自豪和成就感,但同时,我也明白,这一切结果不是凭空而来的,而是靠着之前几周的辛苦和努力挣来的!

关于大数据和对天池平台的期望

关于大数据,现在已经有一些成熟的应用了,但我相信这个领域的发展到现在也只是个开始。未来,随着数据量的继续增大和计算机、互联网中限制的突破,更多更有意义、更重大的应用会不断涌现,而这正给了我们发挥自己能力和创意的空间。

从人人都可以打印工业级产品的桌面3D打印机,到人人都可以提出创意的众筹,再到人人都可以兼职当司机的专车,我认为互联网和计算机的发展正逐步将各个领域从专业化向平民化转变。在大数据分析上,我同样相信这是必然会发生的趋势。随着未来图形化界面的数据分析工具普及,互联网众包模式的成熟,人人都可以成为数据分析师,或者天池平台所说的“数据英雄”。正因为此,我非常欣赏天池大数据平台的模式和理念,也相信它将会在未来拥有强大的生命力。

从一名中学生的角度,我对于天池平台有一些自己的建议和期望:

就我的了解,中学生中其实有不少人具有参加简单数据分析比赛的能力和兴趣。但学校的学习仍然以课本为主,学校的信息技术教材甚至还是以16年前的Office 2000为基础编写的,在高速发展的计算机领域让人觉得难以接受。即使是信息奥林匹克竞赛,也更加注重算法的研究,而缺少与实际问题和最近发展方向的联系。

天池大数据平台完全有能力向中学生群体发展,成为一个让中学生施展身手的平台,也使得大数据分析这样的发展方向在中国普及。我建议增加一些教育性质(类似于数据分析教学)的简单数据竞赛或练习,以趣味性为主,一步一步带着初学者了解数据分析,同时降低进行数据分析的门槛,让更多人有机会参与。

同时,也许还可以和中学合作,或是和英才计划这样的平台合作,在中学生群体中进行推广和宣传,甚至可以设立一些专门设立给中学生、新手的奖项,增加他们的参与积极性。

结语

最后,我想再次感谢天池大数据平台给我这样一个参赛机会,感谢英才计划高阳教授和王皓老师的耐心指导,和杨启帆同学在比赛过程中给我的莫大帮助。

就我个人而言,参加这次比赛,不管是在具体的数据挖掘知识还是在做项目和研究的态度方法上都受益匪浅。这样的锻炼不是在学校的学习或是参加信息奥赛能够获得的,而是真正接触实际问题、解决实际问题的考验,也让我提前体验了大学做项目所可能会面临的状态。

正因为此,我很期待着见到更多中学生参与到数据分析中来,也期待着大数据在未来二三十年的发展,更希望能在其中尽自己的一份绵薄之力!