咖贰

“端到端”到哪个“端”?“端味”智驾是什么味?

很多人都说,今年是中国汽车行业的端到端元年。但昨天和同事聊天时我突然发现,不知道是因为信息传递失真,还是有些厂家喜欢根据自己的技术路线在PPT里夹带私货,作为一家天天听厂家智驾PPT的汽车媒体,大家对“端到端”“端味”的理解居然不一样。

为了避免“端到端”在大家眼里变成“别问,问就是生态化反”这样的互联网黑话,我觉得很有必要在端到端元年结束前解决下这个知识小尾巴,让大家不留遗憾地携手迈进2025年端到端智驾时代。

端到端有什么不同?

“端到端”的两个端分别指的是车载传感器的输入端(激光雷达、摄像头、毫米波雷达等)和行驶指令(方向、电门等)的输出端。

“端到端”到哪个“端”?“端味”智驾是什么味?

输入端传感器将信息直接输入一个AI大模型,直接在输出端输出行驶命令的,就是端到端。其最核心的特点就是,全部数据处理、预测、规划、控制的过程只用单一的AI大模型。

在主流车企里,将大模型应用到智驾系统中的做法,是由特斯拉2021年重构FSD系统时引入,到2024年1月特斯拉推出FSD V12 Beta版时正式进入端到端大模型时代,随后各家主机厂和智驾供应商开始跟进。

“端到端”到哪个“端”?“端味”智驾是什么味?

以前的智驾系统被业界称为模块化架构,它和端到端有根本性的不同,感知、预测、规划、控制等过程都由不同模块单独控制,而且每一个模块都需要人工编写规则告诉它怎么去处理。

而端到端是“感知决策一体化”,一个AI大模型全部搞定,减少了不同模块间数据传递导致的信息失真。而且不需要人工编写规则,只需要做好AI大模型的神经网络,然后喂给它海量的数据进行训练,就能让神经网络“学会”开车。

“端到端”到哪个“端”?“端味”智驾是什么味?

做个不太形象的比喻。模块化智驾就是你告诉了它村东头竖着的红绿灯长什么样,见到这个红灯了就赶紧停车,但到了村西头见到横着的红绿灯它就不认识了,别管什么灯,一脚油就过去了。

而端到端就能学会这红黄绿三个灯摆在一起就是交通信号灯,然后红灯停、绿灯行,以后遇到村南、村北的红绿灯都不在话下。显然,对于开车这种复杂到无法用规则穷尽的场景,能自我进化和学习的端到端要更好用。

“端到端”到哪个“端”?“端味”智驾是什么味?

不过,端到端上限很高,下限也很低。就像同样应用大模型的ChatGPT有可能出现AI幻觉,给出错误或乱编的答案一样,端到端智驾也可能会出现对路况理解错误、输出错误结果的情况,这些错误还存在“黑盒”不可解释性的问题,即神经网络决策过程对工程师来说是一个“黑盒”,你不知道它怎么错的、在哪出错的。

“端到端”到哪个“端”?“端味”智驾是什么味?

对于这样的情况也有办法处理。比如小鹏的端到端大模型,就将大模型内部分为侧重理解大场景Xbrain和车展感知、语义的XNet等不同侧重的区域,出问题后工程师能精准定位到底是理解、感知、执行或者其他区域出了问题,对该区域修改来解决问题。

何小鹏也解释过,为了保证安全,没有一家的端到端能说自己是完全的神经网络。小鹏的端到端在刹车控制这种核心区,是有一定规则体系的。

“端味”是什么味?

刚才我们已经说了,端到端和模块化不同之处在于,它没有规则,是通过神经网络对照着老司机们开车的训练数据“学会”开车的。所以,端到端智驾使用起来会更像人在开车,有“端味”其实就是有“人味”。

“端到端”到哪个“端”?“端味”智驾是什么味?

比如道路掉头的时候,端到端智驾会像老司机一样,如果右边没有车,会稍微往右先反打一把方向盘,让车头向右一点,再向左打死方向盘进行掉头,尽可能减半径。要右转进入停车场的时候,会尽可能走在车道靠左的地方,并且让车走过一点再画大圆进入停车场,避免剐蹭路肩和尽可能将车头对正闸机口方便识别。

这并不是说模块化智驾没办法做这些功能,而是因为它依赖于编写的规则来开车,但实际上在掉头的时候,你当前车道有多宽?隔离带的缺口有多大?隔离带有多宽?这些情况是无法以规则穷尽的,也就没办法给每种情况都写好规则,所以要做这些细节处理非常困难。

“端到端”到哪个“端”?“端味”智驾是什么味?

端到端就不一样,只要有足够强大的超算中心,就能通过大量的训练尽可能穷尽不同的道路情况,加上神经网络本身的学习和泛化能力,就能让它在真实道路情况中开得更像人类。这也就是为什么每家搞智驾的,现在都在比拼超算中心的算力。而特斯拉的Dojo遥遥领先的算力,就是它做好FSD最大的底气。国内车企这方面的基础建设也正在提速。

端到端还有假的?

虽然今年很多主机厂都在宣传自己用了端到端,但网上还出现了“真假端到端”的论战。真端到端和假端到端又有什么区别呢?

“端到端”到哪个“端”?“端味”智驾是什么味?

其实,真假的说法有点夸大,行业内对端到端的实现技术路径尚未统一共识。目前主流的端到端有三种方案:

一是以小鹏为代表的单一AI大模型派,从传感器输入到执行输出只采用一个AI大模型处理。

二是以华为为代表的感知认知模块化派,将智驾大模型拆成感知AI大模型和认知(预测规划决策)AI大模型两个部分,串联起来使用,中间也没有人为定义规则导致信息失真。

三是分层架构派,底层还是传统的模块化结构,高层策略采用AI大模型优化。

宣传“真端到端”的认为,只有第一种才叫端到端。但在目前情况下各家都有发言权,甚至连最开始用端到端的特斯拉V12是什么架构都还没公开,大家何必分真假呢?对于我们买车的人来说,只要好用就是硬道理。

“端到端”到哪个“端”?“端味”智驾是什么味?

不过,从自动驾驶架构演进来看,用单一AI大模型才是端到端的终极形态,小鹏确实已经走在了中国智驾的最前列。