1. 大赛介绍
随着大数据时代和数据密集型研究范式的到来,基于数据进行研究,对数据进行管理、共享和再利用,成为学术研究的新趋势。为了鼓励各学科领域学子基于数据进行创新研究,促进研究数据的保存和共享,由国家信息中心大数据发展部、北京市信息资源管理中心作为行业指导单位,北京大学图书馆、北京大学信息管理系、南海大数据应用研究院,联合北京大学中国社会科学调查中心、北京大学计算语言学研究所,面向全国高校在读学生,开展首届全国高校数据驱动创新研究大赛。
本次大赛将于2017年12月至2018年3月期间举行,欢迎各学科领域优秀学子提交论文参与竞赛。
大赛最新信息请参见官网http://opendata.pku.edu.cn/competition-2018.xhtml。
1.1. 参赛对象
全国高校本科、硕士、博士在读学生。
1.2. 赛程赛制
大赛的时间安排与组织形式如下:
(1) 启动与培训。时间:2017年11月30日和2017年12月1日。方式:现场培训与网络直播,详情见附录1:
(2) 参赛报名。时间:2017年12月1日至2018年1月15日。
(3) 成果提交。时间:2018年1月16日至2018年2月28日。
(4) 成果评审。时间:2018年3月1日至2018年3月16。2018-03-16在大赛官网公布。
(5) 现场答辩。时间:2018年3月19日至2018年3月23日期间。地点:北京大学。现场答辩,决出一等奖、二等奖、三等奖。
(6) 海南颁奖。时间:2018-03-28,一等奖、二等奖获奖代表,将受邀参加2018年3月26至28日在海南陵水举办的“第二届京陵大数据峰会”,进行成果展示和颁奖。
2. 奖项设置
(1) 一等奖(1组),奖金10000元
(2) 二等奖(3组),奖金5000元(至少包含1组本科生)
(3) 三等奖(8组),奖金3000元(至少包含3组本科生)
(4) 优秀奖(30组),奖金1000元(至少包含12组本科生)
3. 北京大学开放研究数据平台
(1) 平台简介
北京大学开放研究数据平台的由北京大学图书馆、国家自然科学基金-北京大学管理科学数据中心、北京大学科研部、北京大学社科部联合主办和推出。平台以“规范产权保护”为基础,以“倡导开放科学”为宗旨,鼓励研究数据的发布、发现、再利用和再生产,促进研究数据引用的实践和计量,并探索数据长期保存,培育和实现跨学科的协同创新。
(2) 平台数据
北京大学开放研究数据平台现有100多个数据集,数据被Web of Science数据引用索引数据库收录。如下给出了一些典型的研究数据集:
中国家庭追踪调查,http://opendata.pku.edu.cn/dataverse/CFPS
中国健康与养老追踪调查,http://opendata.pku.edu.cn/dataverse/CHARLS
中国老年人健康长寿影响因素调查,http://opendata.pku.edu.cn/dataverse/CHADS
中国历代人物传记资料库,http://opendata.pku.edu.cn/dataverse/crach
北京社会经济发展年度调查,http://opendata.pku.edu.cn/dataverse/BAS
国家信息中心大数据发展部提供的数据,
http://opendata.pku.edu.cn/dataverse/contest_official
4. 组织单位
主办单位: 北京大学图书馆、北京大学信息管理系、南海大数据应用研究院
协办单位: 北京大学中国社会科学调查中心、北京大学计算语言学研究所
支持单位: 海南省陵水黎族自治县人民政府
行业指导单位:国家信息中心大数据发展部、北京市信息资源管理中心
赞助单位: 圣智学习集团Gale公司
数据支持单位:北京国信宏数科技有限责任公司
北京清博大数据科技有限公司
北京麒麟心通网络技术有限公司
大连瀚闻资讯有限公司
中国电信股份有限公司云计算分公司
百职科技(北京)有限公司
广东和诚信息技术有限公司
5. 联系方式
大赛最终解释权归主办方所有。如果您对大赛有任何问题,可以通过邮箱、电话与我们联系。非常感谢您对大赛的关注与支持!
邮箱: data-research@lib.pku.edu.cn
电话: 010-62751062-22
附录1 培训计划
(1) 第一次培训
时间:2017年11月30日 下午3:00~4:30
现场培训地点:北京大学图书馆304教室
网络直播地址:http://162.105.138.115/index.php?m=live&c=index&a=lists
表 1 第一次培训内容
主持人
|
主要内容
|
培训老师
|
刘雅琼
(北京大学图书馆)
|
大赛基本情况介绍(30分钟):介绍大赛的基本情况,包括大赛要求、赛制赛程、注册和成果提交流程、北京大学开放数据平台等。 |
罗鹏程 馆员(北京大学图书馆)
北京大学图书馆信息化与数据中心馆员,负责北京大学开放研究数据平台的建设工作,曾参与国家自然科学基金委基础研究知识库、北京大学科研管理系统等平台的建设。参与负责本次大赛的相关组织工作。
|
数据挖掘方法介绍(30分钟):简要介绍数据挖掘的基本流程和方法。 |
王继民 教授(北京大学信息管理系)
教授,博士生导师,北京大学信息管理系副主任。研究领域包括:搜索引擎、Web数据挖掘、科学评价学、信息可视化等。近几年主持国家社科基金、国家“核高基”重大科技专项子课题、以及国家发改委、教育部、北京市科委等科研课题30余项。发表学术研究论文50余篇;出版专著或合著《搜索引擎原理技术与系统》、《Web用户查询日志挖掘与应用》、《中国人文社科类一级学科数据分析报告》、《“一带一路”沿线国家五通指数报告》、《国民海洋意识发展指数研究报告(2016)》等6部。获得发明专利2项;获得省部级科研奖励2项。
|
现场答疑(30分钟) |
|
(2) 第二次培训
时间:2017年12月01日 下午3:30~5:00
现场培训地点:北京大学图书馆304教室
网络直播地址:http://162.105.138.115/index.php?m=live&c=index&a=lists
表 2 第二次培训内容
主持人
|
主要内容
|
培训老师
|
赵飞
(北京大学图书馆)
|
中国家庭追踪调查及分析方法(30分钟):对中国家庭追踪调查数据(CFPS)进行介绍,并简要介绍相关的分析方法。 |
吴琼 副研究员(北京大学社会科学调查中心)
美国宾州州立大学教育与心理测量学博士、统计学硕士。现任北京大学中国社会科学调查中心副研究员,“中国家庭追踪调查”(CFPS)项目办公室主管,主要负责CFPS数据管理、数据服务、与问卷设计和执行相关的数据支持工作。加入调查中心之前,她就职于哈佛大学人口与发展研究中心,作为该中心的量化分析师,她的主要职能之一是分析大型调查数据。主要研究领域包括测量学方法、认知功能的影响因素、少儿发展等,已发表SSCI、SCI论文20余篇。
|
中国健康与养老追踪调查及分析方法(30分钟):对中国健康与养老追踪调查数据(CHARLS)进行介绍,并简要介绍相关的分析方法。 |
陈欣欣 副研究员(北京大学社会科学调查中心)
浙江大学管理学博士,现任北京大学中国社会科学调查中心副研究员,中国健康与养老追踪调查(CHARLS)项目主管,曾在斯坦福大学师从Scott Rozelle教授从事博士后研究。2008年以来参与了CHARLS的实地执行工作,并组织实施了中国中老年人生命历程调查、CHARLS第三轮追踪调查和共和国初期基层经济史调查。研究兴趣集中在微观发展经济学和老年经济学。
|
国家信息中心大数据发展部数据介绍(30分钟):介绍国家信息中心大数据发展部的开放数据。 |
廖尚围 项目经理(国信宏数公司)
国信宏数公司数据采集项目经理。曾任蓬天公司CTO,负责陕西省、江西省地税征管系统技术架构,具有丰富的J2EE项目开发实施经验。目前主要负责国信宏数公司数据采集工作,通过设计分布式采集平台,实施互联网结构化、非结构化数据的采集、清洗、存储。
|