2023年9月3日,由湖南省马栏山计算媒体研究院承担的长沙市科技重大专项“岳麓·多模态图-文-音-语义手势大模型研究与示范应用”项目在长沙月湖文创小镇计算媒体研究院一楼举行科研会议。重大专项参与单位出席会议的有中国科学院自动化所王金桥教授、北京理工大学翁冬冬教授、长沙软件园有限公司总经理彭振文、湖南省马栏山计算媒体研究院高春鸣教授、长沙千博信息技术有限公司郭松睿博士,会议还特别邀请华为技术有限公司长沙昇腾人工智能创新中心COO唐勇、产品总监陈添乐,湖南中科曙光副总经理周晶晶、生态合作经理覃玲俐,湖南大学信息科学与工程学院计算机科学与技术系系主任许莹副教授参与产学研合作落实工作。
各单位分别介绍了项目立项至今的进展、研发成果,并讨论了研究内容、进度、成果发布、成果转化的布局。
1.“紫东太初”2.0全模态大模型
中国科学院自动化研究所王金桥教授介绍了团队发布“紫东太初”2.0全模态大模型。在语音、图像和文本三模态的基础上,加入视频、传感信号、3D点云等模态数据,具备全模态理解能力、生成能力和关联能力。该模型完成了音乐、图片和视频等数据之间的跨模态对齐,能够处理音乐视频分析、三维导航等多模态关联应用需求,并可实现音乐、视频等多模态内容理解和生成,将推动视频、数字人、服务型场所、手语应用等领域的产业升级,产业应用前景广阔。目前研究已能提供MaaS (Model as a Service)服务,已完成平台的安全风控等措施。
2.AI算法SaaS服务
湖南省马栏山计算媒体研究院院长高春鸣教授介绍了研究院多模态数字人的AI计算与渲染分离的结构;并为本项目研究的各种算法及API集成在计算媒体SaaS平台上,提供平台框架,该框架分为数据层、算法层、服务总线层、应用层,可根据长沙市文创、数字产业需求,依托“紫东太初”2.0全模态大模型,对多来源的模型算法进行提取整合,作为市人工智能创新中心AI基础设施之上的人工智能开放创新平台之一,对外提供文创数字领域AI算法SaaS服务。
3.智能终端Sign Talk
长沙千博信息技术有限公司郭松睿博士介绍了手语研最新进展,基于国产AI算力设施,实现手语-汉语双向互译AI云支持的“智能终端Sign Talk”,可体验健听人/聋人用语音/手语与真实感手语数字人互动交流。
4.环境感知-语言大模型-数字人多模态
北京理工大学翁冬冬教授介绍了团队在环境感知-语言大模型-数字人多模态行为的研究进展,对研究中遇到的难题进行了讨论和分析,并在会议现场展示了手机终端上的数字人生成与语音交互效果。
5.人工智能创新中心
长沙软件园有限公司总经理彭振文介绍了长沙市人工智能创新中心AI基础设施建设情况,特别是人工智能创新中心作为全球研发中心城市的首开区最新布局,并介绍了软件园在展厅视频内容自动生成的创新探索和取得的成果。
当天下午华为技术有限公司湖南昇腾创新中心COO唐勇、产品总监陈添乐,湖南中科曙光副总经理周晶晶、生态合作经理覃玲俐,湖南大学信息科学与工程学院计算机科学与技术系系主任许莹副教授分别就国产AI计算设施性能、计算设施厂家对项目参与单位的技术合作和生态支持、高校参与人工智能研究及合作机制进行了深入讨论交流。与会专家们还讨论了如何探索建立机制灵活、公平合理、长期有效的科研及知识产权共享体制,通过本次研讨交流,对项目的研究内容、进度、成果发布、成果转化达成共识,达到了高效地推进项目进展的目的。