发布时间:2023-12-18 来源:安装场景
应用热潮,谁能率先落地,谁就能在此次人工智能革命中占得先机,成为时代变局的领航者。
值此之际,由四川省大数据中心指导,成都传媒集团、四川省发展联盟联合主办,成都商报社承办,红星新闻、红星资本局协办,驰星创投战略合作的2023人工智能大模型基准测试科创发展大会暨中西部数字化的经济大会(下称“大会”)将于12月28日在成都市正式举办。
一方面,大会邀请权威机构及高校专家组建了“大模型基准评测专家委员会”将对国内大模型开展评测工作,进一步探索当前国内大模型的能力水平以及大模型企业未来的发展情况。另一方面,头部企业、专家学者、国内权威标准制定机构等将在大会齐聚一堂,一同探讨行业发展的新趋势,搭建产业上下游沟通平台,推动大模型技术的进步。
红星新闻记者邀请到中国软件评测中心(工业与信息化部软件与集成电路促进中心)人工智能研究测评事业部梁斌博士展开对话。梁斌表示,持续推进人工智能大模型检验检测技术与方法的研究,是促进通用AI健康加快速度进行发展的保障。
红星资本局:您提到“持续推进人工智能大模型检验检测技术与方法的研究,是促进通用AI健康加快速度进行发展的保障”,如何理解这句话?您目前主导的研究方向是什么?
梁斌:众所周知,人工智能的发展不是一帆风顺的,经历过起起落落。最近一次就是2022年底ChatGPT大模型引发的全球关注和创业热潮,不少业内人士认为2023年是通用AI元年。
这一年内,国内外各种大模型如雨后春笋般涌现。随着模型的快速增大和复杂度的提高,如何保证模型的准确性、可靠性和安全性就成为保障人工智能更好更快发展的重要的条件,而模型泛化能力明显提升、“越来越像人”,对AI大模型检验检测技术与方法提出了更高的要求。
评测中心(以下简称“中心”)作为工业与信息化部直属事业单位和国内权威第三方检验测试的机构,一直在AI领域深耕不缀。中心围绕国内外AI发展战略、人工智能技术与产业高质量发展、人工智能场景化应用及检验检测等方向开展专题研究和攻关,形成诸多研究成果。我所在的人工智能研究测评事业部主要是做AI相关的产业研究和技术产品应用检测,而我则主要是做人工智能场景化应用与智能系统测评工作。
红星资本局:从整个大模型行业来看,您认为什么样的检验检验测试标准才是适用性强、认可度高的?
梁斌:大模型技术发展日新月异、能力慢慢的变多元,相关的检验检测技术和方法也要紧跟发展,很难有一个公认的检验检验测试标准能满足适用性很强、认可度高这些要求。以我们之前的测评经验来说,只能以一个概要性的标准作为指导,再结合实际测试对象来测试需求对接,最后依据测试需求来做后续工作。
红星资本局:在今年9月的2023世界计算大会上,评测中心人工智能研究测评部发布了《大语言模型测评分析报告》,对文心一言、讯飞星火等9款主流大模型进行测评。此次评测的标准和维度是什么?
梁斌:为客观评估大规模预训练语言模型能力,中心依托人工智能场景化应用与智能系统测评工信部重点实验室,编制了《人工智能大语言模型测评规范》,从基础通用能力、行业领域知识、安全能力三大维度(具体指标如下图),对文心一言、讯飞星火、智谱清言、360智脑、豆包、通义千问、天工、百川、MINIMAX等9款主流大模型进行测评,分析大模型能力表现,形成《大语言模型测评分析报告》,相关成果已在2023世界计算大会上发布。
梁斌:在基础通用能力方面,大多数大模型表现良好,语言理解能力较强、对话问答准确率较高、生成内容可读性较强,部分模型还具备“搜索增强”等功能;在行业领域知识方面,各大模型基本具备了各行业领域的基础知识,对概念、分类、现状、趋势以及简答、论述题目等,可提供基本正确的回答;在安全能力方面,当涉及违背道德、偏见歧视、侵犯隐私、黄色暴力、违法等内容提问时,各大模型基本能甄别并妥善处理,或给予正向引导,或拒绝回答。
存在的不足主要体现为生成内容存在“幻觉”现象,我们计算错误较多,逻辑推理能力比较差,复杂代码编程能力也有待提升。
红星资本局:您对目前国内“百模大战”的现状怎么看?在今年互联网大会时,李彦宏提出不建议所有的公司all in AI,使用大公司的大模型即可。您怎样看待种观点?
梁斌:目前国内已发布200多个大模型,呈现出“百花齐放”的态势。这种情况充分说明了国内各界对于大型模型技术的发展和应用前景持有非常积极的态度,产学研用的积极投入也有助于整个产业生态的繁荣和发展。与国际一流水平相比,国内大模型仍存在一定差距,也存在一些泡沫的倾向和同质化现象。
李彦宏提出的观点主要是基于资源利用效率和应用需求考虑。这种观点有一定的合理性。人工智能技术的研发需要投入大量的资源和资金,包括数据收集、模型训练、硬件设备等方面的投入,对于小型公司和勇于探索商业模式的公司来说可能会带来非常大的负担和风险。按照信息技术产业高质量发展的规律,业内一致认为,最终国内基础大模型最多可能仅有数家,而更多的企业会基于基础大模型开发应用,满足多种应用场景和业务需求。
而目前国内“百模大战”是一种市场行为,最终谁能脱颖而出,也是要靠市场之间的竞争、优胜劣汰,其中可能有勇于探索商业模式的公司成为“黑马”,如目前引领全球大模型发展的正是勇于探索商业模式的公司OpenAI。
红星资本局:随着通用AI的加快速度进行发展,多地密集发布人工智能利好政策。您认为国内AI行业还有哪些领域的政策尚属空白?为推动我们国家人工智能健康发展,您有什么建议?
梁斌:我自己觉得,尽管国内已经发布了大量的人工智能利好政策,但是随着通用AI的加快速度进行发展,仍然有一些领域在大多数情况下要进一步完善,如数据治理和隐私安全、知识产权界定、社会伦理道德等方面,需要相关支持政策或规范。
为推动我国人工智能健康发展,一是需要政府加强政策支持和引导,鼓励和支持企业、研究机构和高校等加大人工智能研发技术;二是建立完善的法律和法规体系,包括数据隐私保护、、伦理道德、责任归属等方面;三是加强人才教育培训和引进力度,建立相关专业的教育体系、实践机制等;四是推动产学研用深层次地融合,推动技术创新、产业升级、应用普及。
红星资本局:此次举办的“2023人工智能大模型基准测试科创发展大会暨中西部峰会”的意义是什么?将对行业带来哪些影响?
梁斌:2023人工智能大模型基准测试科创发展大会暨中西部峰会的举办意义主要有以下几点::
一是通过展示和评估不同大模型的功能性能,推动大模型技术的发展和应用;二是汇聚中西部地区的优秀企业、研究机构和人才,一同探讨促进数字化的经济的创新发展;三是通过论坛、比赛、路演等多种形式活动,促进产学研用的深层次地融合;四是吸引更加多的社会公众关注AI行业,夯实人工智能的群众基础;五是拓展人工智能技术的应用场景和范围,推动各领域之间的深层次地融合和创新发展。