首页
项目
数据
教育
大赛
态势
博客
论坛
登录
注册
MADlib项目数据
曹英魁
开发数据
开发过程
53.8 MB
2018-06-06 10:39
返回
本数据集是国家重点研发计划“基于大数据的软件智能开发方法和环境”公布的软件工程研究数据集系列之一,主要为Apache项目MADlib相关数据,包括:问答数据和版本提交。 #####数据背景 软件复用是当前的软件工程相关的研究中的一个热点问题。随着开源运动的推进,开源社区积累了大量的、丰富的软件文档,而这些文档提供了充足的数据来源以供我们对其进行软件知识挖掘。通过挖掘、汇聚和整理这种经验知识,为我们提供了新的软件复用的途径。 #####数据来源、格式及规模 在收集的数据中,我们围绕项目对不同来源和类型的数据进行整理、关联和存储。该项目涉及的数据类型、来源、格式及规模具体如下: | 数据类型 | 数据来源 | 数据格式 | 数据规模 | | ------------ | ------------ | ------------ | ------------ | | 软件源代码 | http://www-eu.apache.org/dist/ | `.java`文件 | `26.87`MB | | 软件问答数据 | https://stackoverflow.com/ | `.xml`文件 | `108.95`KB | | 版本提交历史 | https://git.apache.org/ | `git`库 | `26.87`MB | #####数据下载或者访问 本数据的下载或者访问地址为:http://softwareasset.org.cn