金融新基建丨“千模酣战”，金融业大模型为何还在“前牛顿时代”？

尽管作为推动AI大模型发展的“三驾马车”，数据、算力、算法都关系着大模型技术商业化落地的成败，但从多位接受21世纪经济报道记者采访的业内人士看来，在“抢芯片”之外，决定大模型质量和商业化落地的核心要素是数据。对于既要安全又要发展的金融业而言，在数据共享尚不充分的大模型起步阶段，更需要建立开放的行业生态。

大模型时代的数据之痛

金融行业对模型并不陌生，机器学习也不是新鲜词。

一直以来，在智能营销、智能风控、智能投研、智能客服等领域，基于机器学习驱动的建模能力都是金融机构数智化转型的基础。“大模型”是大型语言模型的简称，机器用大规模语料库数据进行训练，通过算法从数据中学习如何完成任务，参数规模大、数学公式复杂。从AlphaGo到ChatGPT，如今机器已经可以在开放系统下实现自我学习与持续反馈。

与过去相比，当下的大模型时代对算力、算法、数据的需求已然改变。

“今天的AI体系是强依赖数据的，是数据驱动的智能体系。”蚂蚁集团副总裁兼首席技术安全官韦韬表示。

“这次OpenAI为我们带来的最重要的技术并不是几千亿的参数，而是基于数据的反馈，让这个系统在持续强化学习下越来越聪明。”马上消费金融CIO蒋宁告诉记者，即使大模型具备优秀的算法，如果没有高质量数据集的训练，就像失去学习能力的博士生，会逐步失去竞争力。

然而，目前“千模竞帆”背后是国内各厂商的数据生态割裂。

“目前在通用大模型建设过程中，一方面当前中文高质量数据有限，另一方面中国移动互联网生态与互联网生态处于割裂情况。”蒋宁告诉记者。

上海数据交易所副总经理韦志林在接受21世纪经济报道记者采访时指出，大模型之所以强大，能够不断地迭代，都依赖于算力算法以及最重要的数据。“在‘三驾马车’中，数据是最核心、最长远、最基础的要素，它每天都在产生，应用场景非常丰富。”从其与大模型企业沟通的情况来看，相较全球语料库建设，国内语料库供给需要进一步提升，语料库的质量、标准、多样性都有所欠缺。

“大模型技术出现后，数据供应的过程中还遇到四方面问题。”中国电子副总经理陆志鹏提到，一是缺少合规确权的机制，目前国内面临的问题就是数据的有效供给不足。很多企业都在做语料库，但数据都非常有限，而且可能面临着统一标准的问题；二是缺少数据的计量估价机制；三是缺少协调分配；四是缺少安全隐私保护机制。

“我们国家的数据生产量全球排名在第二名，但是分散在各个行业、各个组织中，整体的数据是分开的。但大模型所需要是将数据进行物理归集，在短时间内基于一定的算力与算法进行预训练。”韦志林提到，国内各大主流厂商都推出了基于己方已有数据的大模型，但由于数据分散、丰富度不足、质量参差不齐等原因，各个大模型都存在一定的局限性。

“数据已经成为重要的生产要素，当数据开放共享的安全与收益分配机制还不完善，具有大量数据的头部大厂开放高质量数据集的意愿不足，所以其主要将数据价值创新服务于企业内部，而没有拿出去的动力。”韦志林表示。

金融业的垂直大模型解法

通用大模型激战正酣，金融业的大模型运用则主要在行业垂直模型领域。

今年3月，彭博针对金融业推出大型语言模型BloombergGPT，引发市场对金融垂直领域大模型的关注。

在国内，今年5月，星环科技推出了第一款面向金融量化领域的生成式大语言模型“无涯Infinity”，度小满开源国内首个千亿参数金融大模型“轩辕”，今年6月，恒生电子发布金融行业大模型LightGPT，并宣布将于9月底正式开放试用接口。

多位受访对象向21世纪经济报道记者表示，目前金融业的大模型运用主要在工具层与应用层，无论是技术服务商还是金融机构，都在“量力而为”。

“我们以后不会再开发其他领域的模型，每个行业都有自己的行业壁垒。”星环科技CEO孙元浩在接受记者采访时提到，公司的主要战略是提供大模型（LLMOps）的工具链，帮助金融机构训练自己的大模型。“基础大模型与应用之间的鸿沟实在是太大了，我们不可能用一家公司去做每个行业的大模型。和过去相比，大模型主要有2个方面需要改造，一是高达上千亿的模型参数，需要算力支持，需要分布式、高可扩展的调度框架，二是巨量的高质量语料训练。”孙元浩表示，在过去服务于证券行业时，有二十万个已完成标注的语料，也开发了量化因子，使得其训练的模型基于量化策略可以直接用来做示范交易。

对金融机构内部来说，垂直领域的大模型更类似于“个性化小助手”与业务流程优化助手。

众安保险首席技术官蒋纪匀告诉记者，大模型在保险业的落地，需要关注大模型在保险专业领域的知识增强，在合规安全的前提下，对接口调校和限制也有更高要求。因此众安自主研发了AIGC中台灵犀，通过适配如GPT、通义千问、文心一言等国内外主流大模型，灵犀可以帮助保险机构更好适配AIGC能力，允许机构用户，在大模型内嵌入行业专业领域知识库，实现AIGC在保险垂直领域的应用快速适配。

“谈论大模型技术在金融核心业务场景下的应用为时尚早。”萨摩耶云创始人兼董事长林建明在接受21世纪经济报道记者专访时提到，金融业对于算法可解释性与可信度要求极高，AI仍处于“前牛顿时代”，人类还没有搞懂基本原理，目前萨摩耶云对语言生成模型的应用主要集中在结合个性化推荐、用户画像等，解决线上线下协同过程中的自动化断点问题。

行业拥抱生态互通

当通用大模型走向金融行业落地，割裂的数据生态使越来越多的机构拥抱合作互通。

就在7月10日，中国证监会科技监管局局长姚前刊文《关于大模型生态建设的若干思考》。姚前指出，在具体应用落地的过程中，GPT类大模型还会面临一系列挑战。一是如何确保训练数据的数量与质量。一般而言，大模型的训练语料为来自于多个领域的通用语料，而专业语料的收集通常比较耗时费力，同时也存在隐私问题，由此导致大模型在具体的个别应用领域可能出现专业性不足的情况。二是如何降低大模型的运行和维护成本。大模型需要巨大的算力支持和严格的数据治理，普通的机构和应用部门往往难以支撑大模型的运行以及迭代升级工作。为此，需要建立一个各类模型健康交互和协同进化的生态，以保证大模型相关人工智能产业可以在各个应用领域成功落地。

目前金融机构与通用大模型厂商的合作正在加速。在世界人工智能大会上，交通银行与华为、腾讯云、科大讯飞宣布共建3个联合创新实验室，分别聚焦大模型在金融领域的应用与创新、增强网络空间安全防御能力、研究认知模型在金融领域的应用。

针对目前金融数据开放依然不充分的问题，科大讯飞总裁吴晓如在接受21世纪经济报道记者采访时表示，其在合作中的做法分为两步，第一步是无监督训练，把大量公开数据和素材放进模型，帮助金融机构训练基础模型；如果金融机构需要模型针对行业做精细化调整，其并不需要太大算力，科大讯飞将在联合创新实验室中为金融机构提供工具，让其自己做调试优化。

标签：

新绛：绛州鼓乐云分享中华文化薪火传

最后一页

精彩推荐

x 广告

资讯

产品

券商系公募再扩容多家机构积极申请公募牌照

宁夏启动“双百科技支撑行动” 构建高水平产业创新体系

甘肃高校数百名大学生“云支教” “打卡”互动零距离育人

广西贺州“碰瓷女王”重操旧业再度入狱

外卖小哥热汤圆吃出幸福感生活不易愿被社会温柔以待

快讯

x 广告

金融新基建丨“千模酣战”，金融业大模型为何还在“前牛顿时代”？

大模型时代的数据之痛

金融业的垂直大模型解法

行业拥抱生态互通

上一篇:

下一篇:

听！城市的脉动

每一度温暖的背后

一男子地铁站晕倒休克 路过女护士出手相救

河南中小学将迎开学季 多地要求返校师生须核酸检测

安徽新增1例无症状感染者 系境外输入

冰墩墩设计者给北京四中学生回信：祝福可爱奋进的中国少年

江苏南通发现1人检测结果呈阳性 系外地返通人员

湖南郴州报告2例香港返湘人员新冠肺炎确诊病例

广西百色疫情社区传播链基本阻断

广西新增1例本土确诊病例 本轮本土疫情累计报告确诊病例269例

葫芦岛市两医院不再收治非绥中地区患者 就医患者闭环管理

苏州14日新增本土确诊1例，无症状感染者3例 详情及轨迹公布

2021年北京空气质量创历史最优 首次全面达标

化屋村火起来了

畲乡少年小雷的团圆年

心安之处便是“家”——深圳水尾村见闻

江苏发现一处面积约1475平方米唐代建筑基址

青海共和县：发电放牧两相宜

应急管理部：截至1月底查出烟花爆竹问题隐患28052项

福建蕉城：古建筑里古韵悠长 琴筝齐鸣庆元宵

单日新增28例 辽宁省葫芦岛市本轮疫情累计确诊89例

一言不合放火烧家 任性女子被判刑

新疆阿克苏地区库车市发生3.4级地震 震源深度7千米

应急管理部：1月全国接报生产安全事故死亡超1100人

江苏省省长：苏州市要把疫情防控作为头等大事、第一要务

广西新增确诊病例降至1例 百色市有序解除管控

江苏：采取更加坚决果断措施迅速打赢苏州疫情防控战

深圳调整跨境货车内地接驳司机核酸检测为每日一检

绥芬河市15日起全域转为低风险地区

黑龙江省新增境外输入确诊病例1例

黑龙江绥芬河市全域调整为低风险地区

广西百色疫情外溢风险已得到有效控制 社区传播基本阻断

多名和尚尼姑聚餐并分钱？五台山佛协：非本地僧众 已报警

江苏新增本土确诊8例、本土无症状感染者4例 均在苏州

元宵佳节雨雪再现 明日新一轮雨雪天气将来袭

满洲里发现5例核酸阳性人员 所有居民开展全员核酸检测

广西新增本土确诊病例1例 百色市报告

辽宁省新增18例本土确诊病例 其中葫芦岛市报告17例

广东新增本土确诊病例2例 为深圳市报告

吉林黑龙江新疆等地仍有降雪 中东部将再有大范围雨雪

元宵节北京多云山区有零星小雪 最高气温仅零下1℃

广西靖西市两地调整为中风险地区

苏州市多地调整为中风险地区

云南2月14日新增无症状感染者6例

实体书店为什么接二连三遭遇危机？生存之道在哪

卜卦、占星、看手相…… 为什么有的年轻人总想算一卦

开学倒计时 如何帮助孩子克服“开学综合征”

十赌十输，为何还有人铤而走险？

网络赌博花样百出难逃警方天罗地网

上海“最严动迁”迁出最暖“母子情”的背后

一男子地铁站晕倒休克路过女护士出手相救

河南中小学将迎开学季多地要求返校师生须核酸检测

安徽新增1例无症状感染者系境外输入

江苏南通发现1人检测结果呈阳性系外地返通人员

广西新增1例本土确诊病例本轮本土疫情累计报告确诊病例269例

葫芦岛市两医院不再收治非绥中地区患者就医患者闭环管理

苏州14日新增本土确诊1例，无症状感染者3例详情及轨迹公布

2021年北京空气质量创历史最优首次全面达标

福建蕉城：古建筑里古韵悠长琴筝齐鸣庆元宵

单日新增28例辽宁省葫芦岛市本轮疫情累计确诊89例

一言不合放火烧家任性女子被判刑

新疆阿克苏地区库车市发生3.4级地震震源深度7千米

广西新增确诊病例降至1例百色市有序解除管控

广西百色疫情外溢风险已得到有效控制社区传播基本阻断

多名和尚尼姑聚餐并分钱？五台山佛协：非本地僧众已报警

江苏新增本土确诊8例、本土无症状感染者4例均在苏州

元宵佳节雨雪再现明日新一轮雨雪天气将来袭

满洲里发现5例核酸阳性人员所有居民开展全员核酸检测

广西新增本土确诊病例1例百色市报告

辽宁省新增18例本土确诊病例其中葫芦岛市报告17例

广东新增本土确诊病例2例为深圳市报告

吉林黑龙江新疆等地仍有降雪中东部将再有大范围雨雪

元宵节北京多云山区有零星小雪最高气温仅零下1℃

开学倒计时如何帮助孩子克服“开学综合征”