多家企业押注VLA背后:智驾路线要趋于融合?

每经记者 孙磊 每经编辑 裴健如

12月11日,小鹏汽车董事长何小鹏发文称,小鹏汽车(以下简称“小鹏”)的VLA 2.0(Vision-Language-Action,视觉语言动作模型)将在下个季度发布,“因为是第一个版本,所以压力很大”。

此外,何小鹏还与公司自动驾驶团队立下特别“赌约”:若2026年8月30日前,小鹏VLA系统在国内达到特斯拉FSD V14.2版本在硅谷的整体效果,他将在硅谷筹建特色中国风味食堂。反之,自动驾驶负责人需在金门大桥完成相关挑战。

就在前一天,理想汽车(以下简称“理想”)自动驾驶研发高级副总裁郎咸朋在社交平台发布长文,回应宇树科技(以下简称“宇树”)创始人王兴兴此前对VLA模型的质疑。

郎咸朋表示:“我跟王兴兴观点最不一样的地方在于,他认为模型架构更重要,但我认为模型的关键是要与整个具身智能系统适配。在此基础上,数据是起决定意义的。”他认为,“VLA就是自动驾驶最好的模型方案。”

近几年,辅助驾驶行业经历了多次“技术底座”的范式迁移——从企业普遍将激光雷达与高精地图视为“黄金组合”,到引入BEV(鸟瞰图)+ Transformer摆脱对高精度地图的依赖,再到端到端将辅助驾驶推进到AI(人工智能)时代,企业普遍按照这一路径推进辅助驾驶功能。

进入2025年,行业在辅助驾驶发展方向上出现了以VLA与世界模型为代表的“分歧”,而理想与小鹏是选择VLA方案的代表。

两技术派别“各执一词”

据记者了解,VLA被业内视为端到端方案的“智能增强版”。其名称中的V代表视觉感知(Vision),A代表动作执行(Action),而中间的L则是大语言模型(Language Model)。V负责实时感知环境,A负责输出具体控制指令,L则如“中台”一般,将感知信息转译为供A执行的规划与决策。

清华大学车辆与运载学院助理研究员颜宏伟表示:“VLA是多模态大模型驱动的智能体架构,其核心突破在于引入思维链,通过语言模型实现对环境理解与决策推理的可解释性。”

元戎启行CEO周光认为:“VLA模型融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,并将信息串联、分析,从而推理出因果关系。此外,它天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境。”

不过,宇树科技创始人王兴兴在今年8月的一次演讲中表示:“我个人对VLA模型还是保持比较怀疑的态度。”他认为,VLA模型是一个相对简单的架构,在与真实世界交互时,数据质量及可采集数据量都不足以支撑其表现。

郎咸朋则认为,空谈架构不如“看疗效”。在自动驾驶领域,脱离海量真实数据谈模型架构都是空中楼阁。“我们之所以坚持VLA,是因为拥有数百万辆车构建的数据闭环,这让我们能够在当前算力条件下,把驾驶水平做到接近人类。”

郎咸朋指出,要做好自动驾驶,必须把其视为完整的具身智能系统,每个部分研发过程中须相互配合才能发挥最大价值。他还强调,模型关键在于与整个具身智能系统适配,其次数据起决定作用。在机器人领域数据获得较难,但在自动驾驶领域,特别是具备数据闭环能力的车企,这并不是大问题。

尽管郎咸朋认为机器人领域与汽车领域有所区别,车企搭建数据闭环并不难,但仍有部分汽车背景公司未选取VLA路径。例如,华为智能汽车解决方案BU CEO靳玉志表示:“我们不会走向VLA的路径。这样的路径看似取巧,实则并非真正实现自动驾驶的方向。”

据记者了解,“世界模型”源自人类对环境的认知机制,指AI系统通过感知数据构建一个对物理世界的内部模拟,从而具备预测、推理及生成合理行为链的能力。在辅助驾驶中,它不只是“看见”世界,更是理解世界,预测未来可能发生的情况并提前做出决策。例如,它不仅能识别前方有辆自行车,还能预测该车辆是否突然变道,从而提前减速或避让。

除华为外,蔚来、商汤等企业也在世界模型技术路线上进行布局。

VLA与世界模型将融合?

值得注意的是,尽管不同企业对VLA和世界模型两种技术“各执一词”,但两者并不矛盾。

国海证券在研报中表示:“VLA与世界模型在技术层面并非同级或对立关系。我们将发展路径划分为两派,实质是产业玩家在实现端到端能力后,在能力优化侧重点上出现分化。”

研报还指出:“双方技术融合趋势明显,均在向对方领域渗透。例如,VLA正在引入强化学习与仿真优化动作生成。”

在去年底一次直播中,理想汽车董事长李想提及,VLA可拆解为预训练、后训练及强化学习三个层面。强化学习的重要步骤之一是在世界模型中闭环学习,引入舒适度、碰撞和交通规则等规则进行打磨与反馈,让VLA表现超越人类驾驶水平。

郎咸朋表示:“世界模型的高算力需求(训练和推理皆是)决定其更适合在云端进行数据生成、极度逼真的仿真测试和强化训练,这也是理想目前的做法。”

小马智行CTO楼天城认为,“了解到大多数公司都同时使用两种技术,例如Waymo也使用谷歌Gemini大语言模型。世界模型与VLA不是同一维度的技术,而是交错存在的两种方案。它们不矛盾,也不冲突,机器人领域这种情况很普遍。我认为,若想规模化部署百辆以上无人车,世界模型更关键;而对其他公司而言,开发VLA模型来销售车辆更为重要。选择不同路线主要因为目标差异。”

值得一提的是,既面向C端销售汽车,又计划推出Robotaxi(自动驾驶出租车)的小鹏,展现了两种技术融合的趋势。在11月5日举行的2025 AI DAY小鹏科技日上,小鹏汽车正式发布第二代VLA。第一代VLA方案是“V到L再到A”,而第二代VLA则是“V+L到A”,即将L转移至输入端。

对此,何小鹏表示:“第一代VLA模型中间涉及两次语言转换,这会带来大量信息损耗。比如一段1200多字的文字描述也无法精准‘翻译’一段十几秒的视频。以视觉为核心,则能将模型所见世界直接转换成运动轨迹。”

https://news.sina.com.cn/c/2025-12-17/doc-inhaztuv9485461.shtml

您可能还喜欢...

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

.