前沿 2018-10-19 11:10

使用小型数据集实现大数据的新方法

汉同 摘自 美国冷泉港实验室网站

【据美国冷泉港实验室网站2018年10月18日报道】美国冷泉港实验室的研究人员开发了一种分析小数据集的新方法,可从小型数据集中得出可靠的结论。当前技术已经能从大数据中挖掘信息,并得到可靠的结论。但是当数据集的规模较小时,问题变得很棘手,不仅难以得出结论,并且很难验证结论的正确性。例如临床药物试验,研究人员只能在少量的患者身上测试治疗效果,以确定药物是否安全有效。由于传统统计方法的假设,量化确定性十分困难。在计算机时代之前,开发标准方法时,这些假设是必要的。但是这些近似假设在小型数据集上“可能是灾难性的”。当前,研究人员开发了一种现代计算方法,称为密度估计,使用场论来解决之前的问题。该算法集成在了SUFTware开源软件包中。研究人员使用世界卫生组织编织的国家卫生统计数据,以及亚原子粒子痕迹数据验证了该算法,取得了较好的结果。未来,研究人员希望将其用于生存分析中,这是一种用于临床试验统计的分析方案。并将该分析功能添加到SUFTware中。该项目由CSHL / Northwell健康联盟基金,NIH癌症中心支持补助金联合资助,相关论文《Density estimation on small datasets》发布在Physical Review Letters上。

阅读 收藏

相关专题: 应用探索