从语音到视觉智能长城汽车携手中科院打通AI应用链路

2025-07-11 14:24 来源：未知

2025年7月9日，中国科学院自动化研究所张家俊博士率队到访长城汽车技术中心，双方围绕AI大模型在汽车场景中的落地实践展开深入交流，并通过实车体验与技术成果展示，共同探讨智能汽车新一轮技术跃迁的路径。

核心成果：从实验室到车舱的AI落地实践

在长城汽车CTO吴会肖与中科院自动化研究所张家俊博士的共同见证下，双方现场体验了搭载端到端语音模型的实车Demo。该模型在自然语音交互、情绪化应答和多模态指令执行等方面展现出出色的稳定性与响应流畅度，尤其在复杂驾驶环境中表现尤为突出，获得现场专家一致认可。

自2024年8月20日签署合作协议以来，双方在AI大模型领域的联合探索已结出多项阶段性成果。在语音方向，双方联合推出了基于Qwen3技术构建的7B端到端语音情感大模型，致力于让车机不仅“听懂人话”，更能“感知情绪”。

该模型已实现三项关键突破：首先，通过流式解码框架，将语音应答延时压缩至1秒以内，同时保留语义与包括语气、情绪波动在内的副语言信息，实现毫秒级情感响应；其次，模型训练依托8万条含情绪、年龄、性别标签的共情对话数据，在AlpacaEval评测中表现与GPT-4持平，情绪语音合成准确率超过80%；第三，模型针对车载场景进行专项优化，能够精准识别“疲劳提醒”“导航需求”等典型驾驶指令，并在MOS音频质量评分中达到4分（满分5分）的水平，具备成熟的落地潜力。

在视觉领域，VLM云端多模态推理大模型则致力于重构车舱视觉智能体系。通过构建“LLM-VLM交互推理框架”，该模型可实现视觉信息的持续回溯与逻辑链生成。其推理过程由Visual Requester、Responser、Summarizer三重智能体协同完成，使模型在视觉问题回答中具备清晰的推理路径和可解释性。在DocVQA等权威评测中，该模型表现超越Qwen2.5-VL。

为更好适应车端场景，该模型在智能辅助驾驶环境感知与车载屏幕交互等应用中进行了专项适配。结果显示，其在障碍物识别、语义理解等方面的准确率较开源方案提升30%，并实现100%满足车端部署所需技术指标，为车载多模态AI系统树立了新标杆。

未来蓝图：AI驱动汽车科技二次革命

双方确立了下一阶段的重点攻坚方向：共同推进“理解+生成”的多模态统一架构开发，打造智能座舱中的交互“大脑”；探索MOE专家模型技术，进一步降低推理成本，使大规模部署更加“经济实惠”；同时构建具备长期记忆能力的车载Agent系统，实现服务体验的“连贯贴心”和高度个性化。

此次交流会标志着双方合作从“技术研发”阶段迈入“应用落地”阶段，更掀开了汽车产业与人工智能科研体系深度融合的新篇章。随着端到端语音、多模态推理等核心技术的持续演进，长城汽车正加速打造“更懂用户、更智能”的下一代智能座舱，为全球用户开启“AI定义汽车”的全新时代。

从AI技术的联合创新，到智能座舱体验的持续进化，长城汽车始终坚持以用户需求为导向，以场景落地为牵引，让前沿科技真正服务于日常出行体验。与中科院自动化所的深度合作，不只是技术路径的互通互证，更是推动汽车产业技术范式革新的坚实步伐。

48小时人气榜

微信扫一扫

扫描二维码进入财经新干线。追求重磅、独家、原创、有用。财经资讯、政策解读、股市情报、投资机会……每日发布，全年不休。