冰鉴科技斩获Kaggle金融风控竞赛银牌

日前,冰鉴科技在素有“人工智能奥运会”之称的国际知名竞赛平台Kaggle上举办的金融风控竞赛中摘得银牌,位列4875支参赛队伍的前2%。

信用卡已成为当今社会的必需品,为现代生活与消费提供着便利。然而,信用卡普及带来便利的同时,违约风险也相伴而生。其中,违约预测是管理消费贷款业务风险的核心。

美国运通是一家综合支付公司,作为世界上最大的支付卡发行商,他们致力于为客户提供可提高生活品质及促使业务成功的产品、见解和经验。美国运通在Kaggle平台组织了本次大赛,旨在利用机器学习技术预测信用卡的违约概率。

比赛方提供了工业规模的数据集,参赛队伍需要训练、验证和测试包括时间序列行为和匿名客户档案信息在内的数据集,创建特征,并探索AI技术来创建强大的模型,以此来挑战和完善传统的信用卡风险预测模型。

本次大赛有来自全球各顶尖高校的本科生、硕士生和博士生以及各知名科技公司及研究机构的AI工程师、数据科学家组成的4875支参赛队伍参加。

冰鉴科技金融算法团队综合基于日常业务中对贷中风控建模的理解,为每个信用卡用户生成在3月/6月/12月等不同时间窗口下的统计特征(例如:均值、标准差、最大值、最小值)、指数加权衰减平均特征和最近状态变化特征等,最终衍生出近万维特征向量。

通过分析特征分布随时间的变化特性,筛选稳定性较好的特征,以保证模型在OOT效果上的泛化能力。同时结合相关性、IV值等对特征进行筛选,在保留表达能力的同时降低数据规模。对训练样本进行五折划分,构建可靠的交叉验证方案,有效评估每次模型修改和参数调节的效果变化,依托冰鉴科技的计算资源,在较大的模型和参数空间中搜索较优解。

在该比赛中,除了基于特征工程加机器学习模型的方案,冰鉴科技金融算法团队还使用了时序神经网络模型。对原始特征进行One-hot编码、特征分类PCA降维、AutoEncoder编码等不同方式处理后,得到信用卡用户每个月状态的表示向量,按时间先后顺序输入GRU模型,让模型自动学习更复杂的表示特征,并后接全连接层完成违约分类任务。

整个方案训练得到LightGBM、MLP、TabNet、GRU等多种模型的多个版本,基于单模型效果按特定比例进行融合,得到最终集成模型,在4875支参赛队伍的角逐中排名前2%,斩获银牌。

据了解,Kaggle是一个全球范围内的数据建模和预测竞赛在线平台,该平台受到了国内外80万名数据科学家关注,含金量高、参赛者众,在业界广受追捧。企业和学术机构均可在Kaggle上发布数据,学者和专家则参与竞赛以角逐出最好的模型。目前,Kaggle已成为全球数据科学和机器学习竞赛领域的最大社区

此前,冰鉴科技的医疗算法团队就在Kaggle新冠肺炎诊断模型竞赛中摘得银牌,此次在金融算法领域获奖,再一次证明了冰鉴科技算法团队的技术实力。除Kaggle以外,冰鉴科技还曾入选全球算法最佳实践典范大赛(BPAA)100强。

作为人工智能企业服务领域的龙头企业,冰鉴科技以技术立身,引进了一大批国内外顶尖的科学家及研发人员,成立AI实验室,探索人工智能技术在金融、医疗、政务、安防等各个行业领域的落地运用。公司技术人员占比高达70%,在包括机器学习、NLP(自然语言处理)、知识图谱、联邦学习等方面获得多项原创技术及核心专利,旗下拥有三家国家高新企业,成功入选国家级专精特新小巨人企业并登顶“中国智能科学技术最高奖”吴文俊奖。

 

相关链接:https://mp.weixin.qq.com/s/9Y6ZkBwBtJ6VbhC6lw3cEQ