鞠恒荣, 单婷婷, 刘克宇, 樊晓雪, 陈悦鹏, 丁卫平
大数据分析是目前最活跃的数据挖掘研究之一.由于大数据具有巨大规模和低价值密度的特点, 海量数据分析对传统的数据挖掘和分析技术带来了严峻的挑战.本文基于Spark分布式架构, 提出了一种新颖的粒-组协同双向模糊粒舱并行属性约简加速方法, 以加快属性约简算法的实现速度.本文的主要工作由以下四部分组成.首先, 对数据集进行划分, 将数据子集按决策类等比例分布给多个子节点, 以进行并行计算.每个子节点独立执行可以加快整体计算速度.其次, 利用虚拟样本构造双向模糊粒舱模型, 通过减少计算样本间的模糊关系来实现粒度层面的加速.然后, 为了减少属性约简的计算时间, 本文提出了一种粒-组协同的属性约简方法, 将属性组和双向模糊粒舱相结合, 实现属性层面的加速任务.最后, 在主节点将各子节点的约简聚合, 对排序后的结果再次进行属性评价, 提高约简子集的稳定性.在9个公共数据集上进行实验验证, 结果表明本文提出的算法相较于传统的属性约简算法, 减少了计算成本, 并且提高了运行效率和分类精度.