近日,新葡的京集团8814统计系王小燕副教授题为“基于CMCP-LMCL的多分类深度神经网络及其应用”的论文在院定A类期刊《统计研究》2024年第7期发表。
多分类问题涉及信用风险管理、股票走势预测等多个领域。相比于二分类问题和连续型因变量,多分类因变量问题的目标函数和优化算法往往更复杂,从而更具挑战性。深度神经网络(DNN)是常用于多分类预测的机器学习模型,然而该模型具有两个缺点,一是“黑盒”问题,应用时难以确定模型决策所依赖的具体输入变量,这种不可解释性极大限制了DNN在信用评价、金融决策等领域上的应用。二是由于DNN模型具有庞大规模的神经元数量和权重参数,模型容易陷入局部最优,尤其是应用于高维数、低信噪比数据时,往往会产生严重的过拟合。
为解决多分类深度学习模型中冗余参数过多和难以解释的问题,本文提出一个新的深度神经网络(CMCP-LMCL),它利用CMCP变量选择方法压缩输入特征到第1隐藏层的权重,并融合权重的组结构,剔除无关特征以及不重要的连接。同时该方法对特征层之外的权重施加权重衰减L2惩罚,有利于改进过拟合问题。新方法在Softmax基础上引入扩大参数和距离参数,建立增强的边缘余弦损失(LMCL)函数,增大分类决策边界的间隔以期提高分类预测性能。模拟分析表明,对比已有DNN和传统分类方法,无论特征以简单线性形式还是复杂非线性形式映射到因变量,本文方法均具有良好的特征选择性能和预测表现。基于信用贷款数据的实证分析表明,该方法能够有效选择风险指标并进行违约风险预警。
王小燕,新葡的京集团8814副教授,博士生导师,厦门大学经济学博士,美国耶鲁大学博士后。入选“湖南省青年骨干教师培养对象”,新葡的京集团8814岳麓学者。研究领域主要包括数据挖掘、高维数据分析等。目前在Bioinformatics、Statistics in Medicine、Computational Statistics and Data Analysis、Statistics and Its Interface,《统计研究》《数量经济技术经济研究》《系统工程理论与实践》《中国管理科学》等国内外学术期刊发表30多篇论文,主持国家自然科学基金面上项目、青年项目,教育部人文社科基金青年项目,湖南省自然科学基金青年项目等课题共10项,参编专著1部。
图为王小燕副教授
读研在金统
金大团