中国科学院数学与系统科学研究院期刊网
期刊首页 在线期刊 专题

专题

大数据分析与预测技术

《礼记·中庸》提到:凡事预则立,不预则废。在当今大数据时代背景下,这句古训具有更加特殊的意义。大数据时代不仅意味着数据量级、数据来源和数据结构发生深刻改变,而且还意味数据处理、数据分析与数据挖掘能力的极大提升,这为提高预测的精准性提供了较大的便利和新颖的思路。本专栏特精选18篇论文,从大数据分析到预测技术,力图帮助读者了解大数据与预测相关领域的最新进展,希望对加强大数据分析与预测预判工作提供决策支持与重要支撑。

Please wait a minute...
  • 全选
    |
  • 论文
    史惠婷, 柴建, 卢全莹, 汪寿阳
    系统工程理论与实践. 2021, 41(12): 3366-3377. https://doi.org/10.12011/SETP2020-2828
    作为最清洁的化石能源,天然气的使用越来越广泛.然而其价格波动将影响天然气行业的投资与需求、导致生产成本管理困难并影响能源政策的制定和经济增长等.因此,充分了解天然气的价格决定机制及未来波动趋势至关重要.研究利用动态贝叶斯网络模型(dynamic Bayesian network,DBN)研究Henry Hub天然气现货价格的波动机制并预测价格波动率.作为研究结果,建立了天然气现货价格形成机制的动态因果网络图,全面展示了驱动价格形成的直接因素与间接因素.预测结果给出了未来24个月天然气现货价格波动率的取值范围及其概率,如:1、6、7、10月份,天然气现货价格将以0.2072的概率保持在[-10%,0%]的增长率水平.研究结论为天然气驱动因素的探索提供了全面的分析框架,也为投资者和政策制定者提供了更全面的预测信息.
  • 论文
    唐振鹏, 吴俊传, 张婷婷, 杜晓旭, 陈凯杰
    系统工程理论与实践. 2021, 41(11): 2837-2849. https://doi.org/10.12011/SETP2020-0672

    本文基于二次分解和集成学习的思想,构建VMD-EEMD-DE-ELM-DE-ELM组合模型,选取CBOT交易所上市的大豆,小麦及水稻期货作为国际粮食期货的代表,预测其未来收益率走势.鉴于目前已有研究均直接忽略VMD分解后残差项所含纳的重要信息,本文引入二次分解思想首次对其残差项进行EEMD二次分解、集成预测,改善其预测精度,进而提高模型整体预测精度.同时,针对现有组合模型预测方法采用等权重重构分量预测结果的缺陷,本文借鉴集成学习的思想,引入DE-ELM元学习器优化预测重构权重,优化模型全局预测表现.实证结果发现:本文提出的混合模型相较参照组模型具有显著的预测优势.

  • 论文
    张大斌, 李倩, 陈善盈, 凌立文
    系统工程理论与实践. 2021, 41(11): 3020-3030. https://doi.org/10.12011/SETP2020-0996

    为了提高区间预测的精度,提出一种考虑时间序列上下限协整关系的区间预测组合模型(VECM-CoinSVR).首先,用向量误差修正模型(VECM)捕获时间序列的线性成分,得到VECM的预测结果和预测残差序列;其次,通过协整检验获得残差序列上下限之间的协整向量,把该向量与残差序列的历史数据作为支持向量回归模型(SVR)的输入,得到Coin-SVR模型,并对残差序列进行预测;最后,将VECM的预测结果和残差序列Coin-SVR的预测结果相加得到区间组合预测结果.为了验证模型的有效性,将VECM-CoinSVR模型用于全国市场的牛肉、羊肉和活鸡价格的区间预测,与三个单模型(VECM,SVR,Coin-SVR)进行比较,在MAPE、MSEI和UI三个预测精度指标上,VECM-CoinSVR组合模型的预测精度都明显提高.通过区间中心序列点预测结果的比较分析,进一步论证了区间预测优于点预测的观点.

  • 论文
    周浩, 张逸飞, 王震, 王珏, 汪寿阳
    系统工程理论与实践. 2021, 41(10): 2660-2668. https://doi.org/10.12011/SETP2019-1965
    由于原油的重要性以及原油价格序列的非线性和复杂性,原油价格预测备受关注.组合预测是一项利用多个子模型提供的有用信息产生综合预测从而提高预测准确性的技术.原油价格组合预测研究的主要问题是如何有效地构建具有多样性的子模型,并确定最优组合权重.本文提出一种改进的原油价格组合预测模型.首先,采用多种特征选择技术,包括过滤式,包装式和嵌入式三大类方法,筛选出影响原油价格波动的关键因素.然后,基于不同特征选择方法筛选出的不同特征子集,结合多元线性回归,人工神经网络和支持向量回归预测模型,构建混合预测模型.在此基础上,提出一种动态粒子群优化算法,该算法能够搜索最优组合权值,并捕捉其在时间维度上的动态变化.实验结果表明,本文提出的动态组合预测模型能较大程度地降低计算复杂度,提高原油价格预测性能.
  • 论文
    刘轶, 屈建文, 董续高, 张磊
    系统工程理论与实践. 2021, 41(9): 2256-2270. https://doi.org/10.12011/SETP2020-1181
    从价格极差在补充波动率预测方面的优秀表现和收益率符号信息在资本市场的广泛运用出发,本文将价格极差与收益率符号结合起来,构建了符号价格极差这一影响因子,并加入到4个主流的HAR模型中.基于上证综指的5分钟高频交易数据的实证结果表明:符号价格极差短期内对未来波动率影响显著且具有“非对称性”,负(正)的符号价格极差导致未来波动率明显提高(降低);样本外预测结果显示,引入符号价格极差能够显著提高模型的预测能力且结果是稳健的,其中HAR-RSV-SR模型和HAR-Q-SR模型分别在对短期(1天)和中长期(5天和20天)的未来波动率预测中,表现出最高的预测精度.本文的结论对于波动率在资产定价和风险管理上的应用有着重要的参考价值.
  • 论文
    蔡光辉, 徐 君, 应雪海
    系统工程理论与实践. 2021, 41(8): 2030-2044. https://doi.org/10.12011/SETP2020-2738
    考虑到金融资产间的相关关系具有时变性和长记忆性,纳入了混频数据抽样(mixed data sampling, MIDAS)的混频Copula (MIDAS Copula)模型虽能刻画时变性和长记忆性,但其参数演变过程较为简单,因此将广义自回归得分(generalized autoregressive score, GAS)模型作为参数演变过程引入MIDAS Copula模型中,构建GAS MIDAS Copula模型.实证分析发现该模型提升了MIDAS Copula模型对样本拟合的能力;进一步选择不同相关程度的三组沪深300行业指数,分析该模型对不同相关程度行业间时变相关系数长记忆性的捕捉能力及对投资组合的风险预测精度.结果发现: 1) GAS MIDAS Copula 模型对高度和中度相关行业间相关系数长记忆性的刻画能力均最优; 2) 对三组数据简单投资组合的VaR与ES回测检验结果显示GAS MIDAS Copula模型均有最高的预测精度.最后基于不同置信水平、不同权重比例、不同样本滚动窗口长度以及不同资产的各种风险预测结果证实了GAS MIDAS Copula模型的稳健性.
  • 大数据商务决策
    刘业政, 吴锋, 孙见山, 杨露
    系统工程理论与实践. 2021, 41(3): 537-553. https://doi.org/10.12011/SETP2020-1301
    群推荐系统已经成为社交网络平台的重要工具,为群体用户提供兼顾个性化和整体满意度的产品和服务.现有群推荐方法大多是对个性化推荐方法的集成和聚合,忽略了群体和用户的交互影响以及群偏好和成员偏好的动态变化,从而无法保障群推荐系统的效果.为此,本文提出一种基于群偏好和用户偏好协同演化的群推荐方法,能够建模群体和用户的动态交互.具体而言,本文将用户偏好建模成其历史偏好和群影响的加权聚合结果,将群偏好建模成群历史偏好和新加入成员偏好的加权聚合结果,最终预测群体可能消费的产品列表和成员可能加入的群体列表.实验结果表明,本文所提模型在群体消费行为和用户加群行为的预测表现都优于基准算法,并兼具很好的鲁棒性.
  • 大数据商务决策
    钱宇, 曹恩叶, 邓文君, 袁华
    系统工程理论与实践. 2021, 41(3): 554-564. https://doi.org/10.12011/SETP2019-1136
    APP市场上用户发表的评论包含着对APP软件研发团队的有用信息,尤其是软件功能请求以及具有特定应用的用户体验内容,可以应用到APP软件的版本更新设计中.为了研究海量用户评论在APP软件更新和重新设计中的参与作用,本文提出一种基于词向量表征的句向量相似性计算模型,它可以用于度量来自更新日志文本和用户评论文本中的句子的相似性.然后,本文提出了APP产品的“更新日志-用户评论”匹配算法将不同语义匹配结果划分到不同的数据集.基于真实的APP市场上采集的海量APP软件升级日志数据和用户评论数据的实验证明了本文提出方法的有效性.研究结果还发现:APP开发团队对于用户评论内容的采纳不到20%,而且采纳的内容主要集中在APP软件功能方面.用户评论中众多内容指向企业的营销活动问题,这部分内容由于研发团队在企业运营中的管理角色所限,很少能够顾及.
  • 大数据商务决策
    陈剑, 肖勇波, 朱斌
    系统工程理论与实践. 2021, 41(3): 596-612. https://doi.org/10.12011/SETP2019-1219
    摘要 (1378) PDF全文 (856)   可视化   收藏
    在经济全球化和专业化分工的背景下,企业供应链管理的各个环节面临着越来越大的风险.跨界的大数据及其分析技术通过提升数据的“可视性”,为企业的风险管理带来了新的工具和手段.本文聚焦企业运营管理中的采购环节,分析如何利用大数据来评估采购风险.通过梳理一家典型服务采购企业采购流程中面临的各种风险,我们提出了一个”5+X“的采购风险分类框架;其中包括环境风险、竞争风险、道德风险、财务风险、履约风险以及内控风险.我们给出了测度各类风险可能的数据来源以及处理方法.通过一个案例研究我们展示了基于大数据的采购风险评估的具体实施.
  • 论文
    汤霞, 匡海波, 郭媛媛, 刁姝杰, 张鹏飞
    系统工程理论与实践. 2021, 41(1): 176-187. https://doi.org/10.12011/SETP2019-0226
    摘要 (1666) PDF全文 (722)   可视化   收藏
    基于分解-重构-分项预测-集成思想,通过优选分解方法、优化重构方法、优选预测方法及合理选择集成方法等途径,构建了基于变分模态分解(VMD)的组合预测模型,对中国出口集装箱运价指数(CCFI)进行了预测,分析了CCFI波动特性及经济内涵.首先,选用VMD将运价指数序列分解为多个模态分量;其次,采用C值优化的FCM算法将模态分量重构为高、中、低频和趋势项,通过波动特性分析挖掘了重构项蕴含的短期市场不均衡因素、季节因素、重大事件及市场供需等经济内涵;再次,构建了基于数据特征分析的预测模型优选方法,进行了重构项预测;最后,将重构项预测值相加集成,分析了预测效果.实证结果表明,构建的组合模型预测效果优于BPNN、SVM、ARIMA等单一模型、EMD组合模型及未优化的VMD组合模型,较好地体现了CCFI外在波动特征与内在经济意义.
  • 论文
    刘威仪, 江含宇, 张天玮, 陈炜
    系统工程理论与实践. 2020, 40(12): 3095-3111. https://doi.org/10.12011/SETP2019-2691
    本文系统性地研究了三种类别的高频极值数据下波动率的建模与预测,即分别基于高频收盘价数据、高频高低价数据、以及高频"开高低收"数据,讨论并完善了相应的连续价格假设下的估计量和跳跃价格假设下的估计量的理论性质,并将基于高频极值数据的各类估计方法统一地扩展为相应的动态预测模型,通过对上证指数及其他几种主要指数的高频数据进行实证分析,揭示出充分地利用高频极值数据信息可以显著地提高波动率的模型拟合效果和样本外动态预测能力.
  • 论文
    苑莹, 张同辉, 庄新田
    系统工程理论与实践. 2020, 40(9): 2269-2281. https://doi.org/10.12011/1000-6788-2019-1379-13
    本文考虑股市高频数据的日内效应和已实现波动率的测量误差修正了现有多分形波动率指标的构建方法,以HAR模型为基础构建新的多分形波动率预测模型.利用Diebold-Mariano检验和"模型信度设定"检验等方法综合评价了各种模型对我国沪深300股指的预测能力.结果表明:1)在相同模型范式下,赋权调整已实现波动率的样本外预测能力要优于已实现波动率,而本文提出的新的多分形波动率模型要显著优于其他模型;2)在相同波动率测度指标下,引入股价波动的跳跃成分和杠杆效应能进一步改善波动率模型的短期预测效果;3)最优和次优模型均是基于新多分形波动率方法构建的模型.
  • 论文
    吴俊杰, 刘冠男, 王静远, 左源, 部慧, 林浩
    系统工程理论与实践. 2020, 40(8): 2116-2149. https://doi.org/10.12011/1000-6788-2020-0027-34
    摘要 (1550) PDF全文 (2839)   可视化   收藏
    随着大数据和人工智能的兴起,数据智能(data intelligence)逐渐成为学术界和产业界共同关注的焦点.数据智能具有显著的大数据驱动和应用场景牵引两大特征.其融合场景内外的多源异质大数据,利用大规模数据挖掘、机器学习和深度学习等预测性分析方法和技术,提取数据中蕴含的有价值的模式,并用于提升复杂实践活动中的管理与决策水平.本文指出了推动数据智能实现迭代发展的三维要素:数据、算法和场景,然后围绕这三大要素介绍了数据智能的前沿热点、发展趋势和存在挑战,特别对数据智能与管理学交叉的研究与应用问题进行了较为深入的探索.论文还尝试给出一些具有前瞻性的观点或评论,一来希望为有兴趣进入数据智能领域的读者提供指引,二来希望能够在管理同行中起到抛砖引玉之效.
  • 论文
    杨扬, 刘圣, 李宜威, 贾建民
    系统工程理论与实践. 2020, 40(8): 2150-2158. https://doi.org/10.12011/1000-6788-2020-1187-09
    摘要 (1633) PDF全文 (1655)   可视化   收藏
    随着追踪消费者足迹能力的增强,营销科学正经历着一场大数据的革命.为了了解大数据背景下消费者行为和营销战略的改变,此项研究结合近十余年大数据营销的有关文献,梳理了大数据营销的相关概念,类型及分析方法,并提炼出搜索、移动、口碑、数字化、APP和社会媒体等50个大数据营销的热门主题.在此基础之上,分别从互联网、社会网络、移动互联网、大数据和人工智能等四个阶段对大数据营销的研究进展进行回顾,最后围绕客户旅程,营销活动的量化评估和营销分析技术的开发三个方面对大数据营销的未来研究方向进行展望.
  • 论文
    朱平芳, 董朝华, 刘亚莉, 廖辉
    系统工程理论与实践. 2020, 40(6): 1495-1508. https://doi.org/10.12011/1000-6788-2020-0465-14
    摘要 (1009) PDF全文 (713)   可视化   收藏
    汇率预测非常困难,其波动具有时变性、随机性和模糊性等统计特征.现存文献中各种方法和模型的预测效果受很多因素影响,其预测力都不及随机游走模型,这就是汇率预测领域所谓的"米斯和罗格夫之谜(The Meese and Rogoff puzzle)".本文使用非参数方法研究汇率波动及其预测模型,发现较之任何参数方法、半参数方法都具有更大的灵活性.为了克服"维数魔咒",本文提出非参数可加模型来研究汇率预测问题.与现有模型相比,在同样的观察样本期内,非参数可加汇率预测模型有更好的样本外预测能力,这有力地证明了"米斯和罗格夫之谜"并非难以破解.此外,我们将非参数可加汇率模型应用于人民币对美元的汇率预测,其结果仍然揭示了该模型很好的拟合度和预测能力.本文为汇率预测这一研究领域提供了新的研究思路和方法.
  • 论文
    张健, 孙玉莹, 张新雨, 汪寿阳
    系统工程理论与实践. 2020, 40(6): 1509-1519. https://doi.org/10.12011/1000-6788-2020-0443-11
    摘要 (800) PDF全文 (1090)   可视化   收藏

    机场扩建、政策导向、经济发展等外在因素的变化常常导致航空客运量数据发生结构性改变,其模型的设定也在很大程度上存在不确定性,因此,精准而稳定地预测航空客运量变得十分困难.为了解决以上问题,本文采用了一种时变模型平均方法(TVJMA)(Sun等,2019,2020)对全国Top 5机场的客运量进行了预测研究,该方法在模型平均时基于最小化局部Jackknife准则给出了最优的权重选择,并通过非参数估计,实现了最优权重随时间变化.实证结果表明,本文所采用的TVJMA方法显著优于其它基准模型,包括Hansen和Racine(2012)的Jackknife模型平均(JMA)以及自回归模型(AR),单整自回归移动平均模型(ARIMA),季节性单整自回归移动平均模型(SARIMA)和时变参数模型(TVP)等传统方法.进一步,对不同的预测步长,TVJMA在航空客运量的预测效果同样具有稳健性.因此,TVJMA方法可以有效地降低由于航空客运量的结构性变化和预测模型不确定性等导致的预测风险,进而做出精准而稳定的客运量预测.

  • 论文
    李兵, 林安琪, 郭冬梅
    系统工程理论与实践. 2020, 40(6): 1578-1595. https://doi.org/10.12011/1000-6788-2020-0439-18
    本文使用Baker等(2016)构建的中国经济政策不确定性指数(EPU),和基于中文报纸文本关键词搜索构造的中国经济政策不确定性指数(CEPU),运用中国2010年1月-2016年4月约5000种产品的进口月度数据,分别估计了EPU和CEPU对这些产品进口的影响,发现经济政策不确定性对于不同产品的进口影响是不同的,既有负向影响的,也有正向影响的.进一步,我们采用BEC大类分类、差异化产品和同质产品、全球贸易国家数与集中度、进口需求弹性来刻画产品的异质性,对经济不确定性对不同产品影响的差异进行了解释.我们发现当中国的经济政策不确定性增大时,资本品和运输设备相比中间投入品、差异化产品相比同质产品,进口受到的负面影响更大;需求替代弹性越小、全球进口国家数越多、全球进口国家集中度越低、全球出口国家集中度越高的产品,其产品进口的负面反应越大.此外,我们对比EPU与CEPU这两个指数在回归中的表现,CEPU指数比EPU指数的结果更为合理.
  • 论文
    龚旭, 曹杰, 文凤华, 杨晓光
    系统工程理论与实践. 2020, 40(5): 1113-1133. https://doi.org/10.12011/1000-6788-2019-0561-21
    近年来,基于高频交易数据的HAR族模型在对各类金融市场波动率的预测研究中展现出了良好的预测效果.本文在4个经典或前沿的HAR族模型的基础上,考虑杠杆效应和结构突变因素对波动率的预测作用,构建4个带杠杆效应和结构突变的HAR族模型.接着,以上证综指和深证成指的5分钟高频交易数据为研究样本,对上述模型进行样本内和样本外分析,以此检验各成分对股市波动率的预测作用以及比较各模型的预测能力.实证结果显示:已实现波动率,连续波动率,下行波动率,上行波动率,杠杆效应和结构突变成分对股市波动率的预测作用较强,而跳跃波动率,符号跳跃方差对股市波动率的预测作用较弱;带杠杆效应和结构突变的HAR族模型对股市波动率的样本内拟合效果和样本外预测能力都明显优于相对应的不带杠杆和结构突变的HAR族模型,其中大多数情况下LHAR-CJ-SB模型展现出最高的拟合效果和预测精度.以上结果表明,杠杆效应和结构突变因素能有效提高HAR族模型的预测精度,所以在HAR族模型的构建中这两个因素不能被忽视.