首页
项目
数据
教育
大赛
态势
博客
论坛
登录
注册
GitHub StackOverflow用户关联数据集
张迅晖
发布数据
5.7 MB
2018-05-06 18:16
返回
本数据集是国家重点研发计划“基于大数据的软件智能开发方法和环境”公布的软件工程研究数据集系列之一,主要是将知识分享社区StackOverflow和协同开发社区GitHub中用户关联起来的跨社区数据集。 #### 数据集产生原因 研究人员在进行GitHub或StackOverflow相关数据分析时,可能会涉及到用户的跨社区行为。我们根据StackOverflow中用户的email hash信息和GitHub中用户的email信息将两社区中用户关联起来,进而辅助开源的跨社区研究。 #### 数据集字段说明 我们利用StackExchange 2012年8月公开数据集和GHTorrent 2016年3月公开数据集,得到关联用户表。 | | stackoverflow_github_users | 字段说明 | | :------------: | :------------: | :------------: | | 1 | stackoverflow_user_id | StackOverflow社区中对应用户id | | 2 | github_user_id | GitHub社区中对应用户id | | 3 | email | 用户的email信息 | | 4 | emailHash | email加密后的结果 | #### 特别说明 此数据集目前只采用了注册邮箱匹配的方法,并且过滤掉了已经删除的用户或是虚假用户。同时,此数据集的其他扩展方法正在研究中,并且会在相关工作得到工业界认可后对外公布。敬请谅解和期待。 如需使用该数据集,请引用文章: `Zhang X, Wang T, Yin G, et al. DevRec: A Developer Recommendation System for Open Source Repositories[C]//International Conference on Software Reuse. Springer, Cham, 2017: 3-11.`
附件:
stackoverflow_github_users.sql
( 5.741 MB)
张迅晖
, 2018-05-06 18:15