科技赛事

中国高校计算机大赛–大数据挑战赛

20160325140039_26632

竞赛宗旨

2016中国高校计算机大赛——大数据挑战赛(Big Data Challenge)是由教育部高等学校计算机类专业教学指导委员会、软件工程专业教学指导委员会、计算机课程教学指导委会和全国高等学校计算机教育研究会联合主办,清华大学和阿里云联合承办,在“天池大数据众智平台”上开展的高端算法竞赛。大赛面向全球开放,旨在通过竞技的方式提升人们对数据分析与处理的算法研究与技术应用能力,探索大数据的核心科学与技术问题,尝试创新大数据技术,推动大数据的产学研用。

组织机构

主办单位

教育部高等学校计算机类专业教学指导委员会

教育部高等学校软件工程专业教学指导委员会

教育部高等学校大学计算机课程教学指导委会

全国高等学校计算机教育研究会

承办单位:清华大学

赞助单位:阿里巴巴集团(阿里音乐、阿里云)

指导委员会

主任:杜小勇(中国人民大学)

委员:宋 柯(阿里巴巴集团)

侯义斌(北京工业大学)

陈新河(中关村大数据产业联盟)

骆斌(南京大学)

专家委员会

主任:王建民(清华大学)

副主任:臧斌宇(上海交通大学)

委员:陈恩红(中国科技大学)

胡学钢(合肥工业大学)

李雁翎(东北师范大学)

滕桂法(河北农业大学)

王宏志(哈尔滨工业大学)

王腾蛟(北京大学)

吴黎兵(武汉大学)

肖侬(国防科学技术大学)

于炯(新疆大学)

张瑞生(兰州大学)

组织委员会

主任:刘强(清华大学)

副主任:王一婷(阿里巴巴集团)

委员:洪玫(四川大学)

舒坚(南昌航空航天大学)

杨永健(吉林大学)

张莉(北京航空航天大学)

赵文耘(复旦大学)

左保河(华南理工大学)

竞赛题目

本次大数据挑战赛以阿里音乐用户的历史播放数据为基础,参赛队伍通过对阿里音乐平台上每个时间段内艺人的试听量进行预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。

大赛将开放一定规模的抽样歌曲艺人数据以及与这些艺人相关的用户行为,参赛队伍需要设计相应的算法进行数据分析和处理,比赛结果按照规定的评价指标使用在线评测程序进行评阅和排名,结果最优者获胜。

竞赛题目:阿里音乐流行趋势预测

经过7年的发展与沉淀,目前阿里音乐拥有数百万的曲库资源,每天千万的用户活跃在平台上,拥有数亿人次的用户试听、收藏等行为。在原创艺人和作品方面,更是拥有数万的独立音乐人,每月上传上万个原创作品,形成超过几十万首曲目的原创作品库,如此庞大的数据资源库对于音乐流行趋势的把握有着极为重要的指引作用。

本次大赛以阿里音乐用户的历史播放数据为基础,期望参赛者可以通过对阿里音乐平台上每个阶段艺人的试听量的预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段内音乐流行趋势的准确把控。

竞赛数据

大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150831)的用户行为历史记录。

用户行为表(mars_tianchi_user_actions):

列名         类型         说明         示例

user_id     String        用户唯一标识         7063b3d0c075a4d276c5f06f4327cf4a

song_id    String        歌曲唯一标识         effb071415be51f11e845884e67c0f8c

gmt_create      String        用户播放时间(unix时间戳表示)精确到小时 1426406400

action_type      String        行为类型:1,播放;2,下载,3,收藏  1

Ds    String        记录收集日(分区)     20150315

注:用户对歌曲的任意行为为一行数据。

歌曲艺人(mars_tianchi_songs)

列名         类型         说明         示例

song_id    String        歌曲唯一标识         c81f89cf7edd24930641afa2e411b09c

artist_id   String        歌曲所属的艺人Id         03c6699ea836decbc5c8fc2dbae7bd3b

publish_time    String        歌曲发行时间,精确到天     20150325

song_init_plays        String        歌曲的初始播放数,表明该歌曲的初始热度     0

Language          String        数字表示1,2,3…   100

Gender     String        1,2,3         1

注:每个阶段更换数据时,表名加前缀”p2_”(如p2_mars_tianchi_user_actions)

结果集

选手需要预测艺人随后2个月,即60天(20150901-20151030)的播放数据。

选手提交结果表(mars_tianchi_artist_plays_predict)

列名         类型         说明         示例

artist_id   String        歌曲所属的艺人Id         023406156015ef87f99521f3b343f71f

Plays         String        艺人当天的播放数据     5000

Ds    String        日期         20150901

选手需要预测9月1日至10月30日(60天)内所有艺人的结果。

初赛:

选手通过天池网站提交结果

文件命名方式:mars_tianchi_artist_plays_predict.csv

复赛:

选手直接在平台上提交自己所在项目产出结果mars_tianchi_artist_plays_predict即可

表结构(字段名,字段类型,字段顺序)需保持一致

评估标准

设艺人j在第k天的实际播放数为T(j,k),参赛队伍集合为U,艺人集合为W,参赛队伍i的程序计算得到艺人j在第k天的播放数为S(i,j,k),则参赛队伍i对艺人j的播放预测的归一化均方差σ(i,j)为:

σi,j=1N∑k=1N((Si,j,k−Tj,k)/(Tj,k))2

而艺人j的权重根据艺人的播放量等大小单调递增(具体公式不公布)

ϕj=F(S)

参赛队伍i的最终得分

Fi=∑j∈W(1−σi,j)∗ϕj

最终排名按照F值评判,F值越大,代表结果越优,排名越靠前。

赛制说明

本次大赛分为初赛、复赛和决赛三个阶段,其中:初赛由参赛队伍下载数据在本地进行算法设计和调试;复赛要求参赛者在线进行数据分析和处理;决赛要求参赛者进行现场演示和答辩。具体安排和要求如下:

初赛(5月17日—6月14日)

参赛队伍可从大赛网站下载数据,在本地进行算法设计和调试,在规定时间内提交结果。若参赛队伍在一天内多次提交结果,新结果版本将覆盖旧版本。

从5月17日起,系统每天进行一次评测和排名,评测开始时间为当天10:00 AM,按照评测指标从高到低进行排序,每天更新排行榜;排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示。

系统在6月7日将进行数据切换,参赛队伍在访问赛题数据时须注意更换表名,初赛成绩排行榜将选取6月8日起产生的成绩进行排名。

初赛截止时间是6月14日10:00AM,成绩排名前500名且通过支付宝实名认证的参赛队伍将进入复赛。(认证入口:天池网站-个人中心-认证-支付宝实名认证,要求初赛截止日期前完成认证)

复赛(6月17日—7月15日)

复赛的数据不可下载,选手需要使用平台完成数据处理、建模、算法调试、产出结果等所有环节,可使用基于ODPS的Map Reduce、SQL、GRAPH及平台集成的各种机器学习算法包/模型。

从6月17日起,系统每天进行一次评测和排名,评测开始时间为当天10:00 AM,按照评测指标从高到低进行排序,每天更新排行榜。

系统在7月8日12:00AM将进行一次数据切换,参赛队伍在访问赛题数据时须注意更换表名,复赛成绩排行榜将选取7月9日起产生的成绩进行排名。

复赛截止时间是7月15日10:00AM,成绩排名前5名的选手将受邀参加决赛的现场答辩。

决赛(8月下旬)

决赛将以现场答辩会的形式进行,具体安排另行通知。

参赛队伍应提前准备现场答辩材料,包括PPT、算法代码。

组委会将根据参赛队伍的算法原理、历史成绩和评委打分,评选出整个大数据挑战赛的冠亚季军,并现场颁发奖金及证书。

报名方式

参赛对象

本次大赛面向全社会开放,高等学校、科研单位、互联网企业、创客团队等人员均可报名参赛。参赛队伍可以单人参赛或自由组队(最多不超过3人,可以跨单位组队)。

参赛队伍要求:

每人只能参加一支队伍。

保证参赛队员报名信息准确有效,否则将被取消参赛资格及奖励。

大赛主办单位和技术支持单位中有机会接触赛题相关数据的人员不允许参赛。

提交的参赛作品必须是团队或个人独立完成的原创作品,不得抄袭,不得违反任何相关的法律法规,否则将取消参赛资格。

大赛所提供的数据集和平台仅限于此次大赛使用,不得用于其他任何目的。若因违反此规定而给数据提供方或平台提供方造成损失的,参赛队伍所在单位和选手须承担全部责任。

报名方式

报名方式:访问天池大数据众智平台,进入“大数据挑战赛”模块,用淘宝或阿里云账号登录,完成个人信息注册,即可报名参赛。

报名、组队变更和实名认证截止时间均为2016年6月7日10:00 AM。

大赛官方交流群——旺旺群:1270938233。

奖项设置

初赛奖项

一等奖:第1名队伍,奖金叁万元,颁发获奖证书

二等奖:第2-3名队伍,奖金壹万元,颁发获奖证书

三等奖:第4-10名队伍,奖金伍仟元,颁发获奖证书

说明:上述奖项将结合参赛队伍的总结PPT、算法原理、历史成绩进行评审,确定最终排名及奖项;如有必要将组织现场答辩(解释权归组委会)。

决赛奖项:

冠军:1支队伍,奖金贰拾万元,颁发获奖证书

亚军:1支队伍,奖金伍万元,颁发获奖证书

季军:1支队伍,奖金贰万元,颁发获奖证书

说明:上述奖项以决赛现场答辩的最终名次决定,复赛排名TOP10的主要参赛选手可直接入围阿里校招终面(在校期间均有效)。

周星星

自大赛排行榜开榜起,每周一榜单排名前三名的参赛队伍将成为周星星,其队员可获得天池礼品一份。

分享优质参赛故事或心得的选手可获得天池书包一只。

极客奖

复赛排名TOP20的选手将获得极客奖证书,并入围阿里巴巴校园招聘绿色通道(即招聘流程省略简历筛选及笔试筛选阶段,直接进入面试阶段,在校期间均有效)。

免责声明:本文来源于网络,欧米网仅转载以供参考。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

本文由 欧米网 整理编辑,版权归原作者所有,转载请注明来源!