做到第一梯队 长城汽车智能驾驶媒体专访
长城汽车近期发力智能驾驶领域,从长城创始人魏建军在山城重庆直播测试蓝山智驾版的无图NOA开始,释放出品牌对智能驾驶的重视程度,此次专访进行了媒体问答,以下为专访实录。参会人员为长城汽车智能化副总裁吴会肖;长城汽车智能平台开发中心的高级总监姜海鹏;长城汽车智能平台开发中心的专家吴国苏州;长城汽车魏派产品总监刘鹏凯。
吴国苏州:我简单跟大家沟通一下关于长城智能驾驶这两个月内的一些动态更新和进展。
今天分享的内容首先是包括我们对行业趋势的一些认知和看法。另外我们今年在4月份向各位媒体老师介绍了我们SEE一体化大模型,这个模型在这两个月的时间内又有了一定更新和升级,包括功能和场景更新也会在这里跟大家分享。最后是各位关心的城市NOA产品开城的计划,也是大家更为关心的一个内容。
首先我们来回顾一下今年4月份我们发布的模型表现,(视频)这是4月份我们SEE模型在盘山公路连续开车情况,可以看到大转弯的角度和连续弯道的场景,智驾模型在当时已经表现了非常拟人化的驾驶表现。
实际上当时这个产品已经不是传统的基于规则决策和规划,它是带着人工智能决策的一体化大模型,所以它对于避障能力都展现了一定老司机的水平。像这样的垂直曲率变化的坡度,对现在的智驾系统也是一个非常大的考验,其实在当时整个算法状态能够很好的应对这样一些场景。包括路面上一些异形障碍物和通用障碍物的感知和避让,当时也都全部支持。
接下来主要和大家讲一下我们对行业趋势的一些看法。
实际上这两年智驾技术的进步非常快,各种新的名词也层出不穷,我记得在去年底的时候大家都还在谈论BEV+Transformer成为一个智驾的新范式,大家希望把这个东西搬上车,而在今年在几个月前各个主流的智驾厂商都纷纷开始宣传自己端到端技术。当然从现在本身已经量产的智驾产品来看,BEV+Transformer感知加上人工规则的决策规划,是目前的市场主流。当然这样的技术对于一些高速和高架NOA产品是没有问题的,但如果用2021年就推出的技术去挑战城市的场景会遇到非常非常多的问题,这也是我们看到为什么现在主流的厂商在开城的过程中快的大半年的时间,慢的可能几年时间,目前行业城市NOA的开发普遍需要上千名甚至几千名的工程师一个场景一个场景去写代码优化,从而导致开城的缓慢。这也是为什么人们在意识到智驾进入城区之后,传统感知决策规划的方法——这种分段式的方法,越来越不能适应城市场景的需要,并且上限很难提高。我们今天看用AI模型实现统一的感知,预测决策规划是一个必要的方法,也是为什么我们大家都在大力的发展端到端技术的一个根本原因。
我认为今年肯定是一个端到端到技术上车的元年,当然端到端技术本身是加快产品迭代,并且让处理每一个case解决的效率更高,但它并不是智驾终局。我们认为全场景自动驾驶,仅依靠端到端是不够的,对于通用场景理解是必要的技术手段。当前辅助技术向自动驾驶迈进,端到端和场景理解是一个必然的趋势。
第二,我们再来回顾一下SEE模型的背景,其实SEE是我们在今年4月份发布的一体化智驾模式。当时背景我们就是为了应对L2+的辅助驾驶由高速走向城市,需要处理无穷多的case,有各种人车混流的路段,且交通场景非常复杂。为了解决几乎无穷多的场景问题,而提出的一种技术理念和架构。它强调的是安全、高效和体验,在这样一个架构下我们主要干了三件事。
第一,算法架构相比传统算法分段式算法模块发生一定转变,我们用一体化大模型来解决大部分问题,我们相信随着数据量的增长,人工智能技术的进步,模型不断进化,能够更好的解决场景问题,而不需要靠几千人的团队来针对每一个场景去打补丁,这是我们的第一个措施。实际上现在火热的端到端技术理念,我们当时一体化模型就已经得到使用,只是在当时的情况下,毕竟这个模型不是完全端到端的,还有大量人工规则在里面,所以本着实事求是和相对于客观的态度我们还是称之为一体化大模型。
第二,我们觉得在当时的情况完全靠AI无论是技术还是,数据量在一定程度上都是有限的。如果仅靠AI做自动驾驶,对消费者其实是不负责任的,我们做了多层兜底。另外在一体化感知方面这块我们走在前面,用一个感知模型替代了多个模型加后处理的感知,我们智驾模型符合端到端理念,完全通过数据驱动使得智驾系统不断进步。
大家比较关心的一个点是SEE这个模型在端到端技术的应用。端到端的理念不是说一步到位的。行业里的智驾方案都是从分段式的架构开始的。最早模型化的是一个感知模型,而后面会有复杂的后处理和一个多传感器融合。和,最后才是大量人工编码的决策规划,我们称之为经典分段式的智驾结构。而在端到端的第一步是感知系统,它把前端感知和融合采用一个模型来实现一个BEV一体化感知,现在市面上大部分车型基本都实现了BEV感知的端到端,而在决策和规划采用人工编码的方式。
第二步是整体智驾算法的端到端,我们平时讲的端到端基本下面两种方式:第一种是现在普遍的做法,它是BEV一体化的感知加上大的决策规划和模型,把两段结果拼起来,主要依靠模型推理,通过传感器输入就能够实现驾驶轨迹的输出,我们称之为模块化的端到端。而完全端到端,不需要再经过中间的过程可以直接通过感知来输出驾驶轨迹。我们的看法是在现阶段完全的端到端实际上是一个很难训练的模型,并且实际上因为从头到尾都是黑盒,有很多不可预知的问题,通过人工规则对一些场景的修补也是个比较难的事情。而模块化的端到端,虽然技术上容易实现,但因为中间有接口,特别是人工定义的接口,会有信息传递的局限,也会导致性能损失。所以我们认为把两种技术全部都结合起来,那是现阶段一个比较好的方案。所以我们说的SEE2.0在这两个月内发生的升级,实际上结合了模块化的端到端和完全端到端的优点,既有直接输出驾驶的轨迹,又有感知加上模块化智能决策规划的结果,最后还有安全策略来给大家做兜底,保证智能驾驶拟人化和安全。在后面分享的片段里面我们可以看到这种能力的优越性。
大家都知道除了算法的升级,人工智能最重要的一个事情就是数据,我们通常认为从算法到BEV算法到决策规划模型到最后的端到端,数据量是指数级的增长,长城汽车在过往项目里面也积累了海量的数据,我们在两个多月的时间内把用于训练的数据量进行了翻倍,有一百多台的研产车和大量的测试车在全国各个地方在跑,有大量的数据回传,并且做了数据处理来实现了模型能力的增长。
具体技术迭代升级我们做了四方面的考量:
第一,模型优化,在原有基础上把模型进行了一些优化和压缩,执行效率提升了20%,同时让模型做更多的事情。第二,增加了近300万Clips的实车数据,进行了大量场景泛化工作,我们完成了全国高速高驾道路超过30万公里的数据泛化。完成了四个首先开通城市NOA城市场景的泛化测试,采集数据量超过了1PB,而测试总里程超过了100万公里,泊车方面泛化测试了200多种泊车场景。第三,我们把模型升级以后省出来的算力做了一部分长周期的场景理解。当然从现阶段角度上,如果不计血本的去做进行场景理解,肯定是做不到的,所以我们把模型对环境记忆和分析的周期从几十秒扩展到分钟级,优化了包括对静态障碍物的绕障,一些不合理的限速以及黄灯闪烁误减速,都通进行了一部分优化。
最后一块是安全能力,一如既往的,主动安全方面,AEB在4-150km/h可激活,同时完成了30万公里的AEB误触发测试,AEB误触发指标也是行业第一梯队的。另外,重点提升人车混流和博弈交通场景下,在保证效率的情况下提升了安全性能。相对于415版本,630整体升级其实是挺大的,无论道路拓扑能力构建上、博弈安全性、对场景的理解这其实都是比较大的提升。
我们看一下具体的效果,接下来是我们拍的路口实车视频,对自动驾驶还是比较难的,只有采用AI模型做决策规划,才有可能在复杂场景能不能像老司机一样流畅。另外在很窄的道路上避让非机动车穿行能力、可通行的能力都大幅度增加,而不是一味的机械等待。我们强化了模型AI 拓扑能力,包括像锐角路口进行拓扑构建,也大大提升。
下一个是变道通行的场景,属于行业内典型的城市工况,包括主道辅道切换,路边静态车辆的绕障,,对决策和规划模型能力也是比较大的挑战。这是一个比较窄路的城中村,道路仅比车辆宽一些,也没有出现大量卡顿的情况。
接下来是一个动态目标博弈的场景,我们可以看到实际上通过路口有很多情况是各种车辆博弈,包括人车博弈和车车博弈,如果一味追求安全,智驾系统虽然很安全但没有人会去使用。在一些场景下,车辆企图超越前方的车辆,但是一看超不过,立马自动放弃,这是跟诸位老师基本是一个水平。
最后一块行车场景,这对人类驾驶是特别特别简单的一个场景,反而是传统智驾基本都很难搞定,特别是超宽没有车道线的道路,对一些不正常的靠边是非常普遍的,而这个模型采用的端到端技术,学习驾驶人的行为也会比较轻松的应对这个场景。
另外跟大家分享一下泊车的改进,在这两个月之内我们做了大量的泛化测试,完成了主销城市里面超过200种泊车场景泛化,同时特别优化掉头泊车、斜列泊车、车头泊入。记忆泊车方面,对地图学习和巡航车速都提升到一个令人满意的水平。超窄车位,对体积比较大的车辆这样的能力也是必须的,泊入时候两边仅有20厘米左右的空间。最后一块是断头车位,虽然那很多泊车产品都能支持,但对空间的感知能力和借用空间的规划能力决定泊车效率。我们能够及时发现对面的空车位,三把实现掉头。
最后一块是主动安全,现在法规项目满分是大家的必选项,我们我们除了法规项目,更加在意其在真实场景中的表现,例如这里有个躺在地上的假人,夜间场景侧翻车辆,都实现了很高速度的AEB制动。
最后关心的是我们城市NOA开城计划,随着新车的上市,首批开放四个城市,第一是保定,第二是深圳,第三是成都,第四是重庆,这四个城市非常非常有代表性。
保定是历史悠久的古城,特点是施工道路非常多,包括新旧道路交替,无规则的车道线和车道线缺失是非常普遍的现象,特别是老车区路窄,车流密集,是非常有难点的一个城市。第二块是深圳,高楼林立,城市高架和地面交替非常多。第三是典型的成都这样的二线城市,路窄,也有大量左右的公交车道,还有待行待转区也比较多。最后我们也介绍了山城重庆,对智能驾驶来说是一个高地,垂直坡度变化非常多,道路曲率和宽窄变化范围都非常大,立交密度非常大。
如果搞定这四个城市,那全国80%城市的场景都能覆盖,为我们接下来每个月的开城计划有了一个很有力的保证。从能力上讲,现阶段我们有能力去应对全国范围的城市NOA。但本着对用户负责的态度,智驾这个东西毕竟不是一个光靠理论计算就可以证明的,它需要大量的实际测试,我们有信心在一个不错的技术基础上,通过我们大量测试,在今年12月底的时候实现全国所有城市开放。
媒体:咱们这次做的NOA升级,现在自动驾驶这一块我们也知道华为系还有一些其它品牌他们做的技术都非常的快,长城这一次升级和智能驾驶迭代我感觉从整体不管是态度还是实际变化非常大,想问一下咱们跟其它品牌自动驾驶进展而言是一个什么样的。我看了地图亦庄是自动驾驶的示范区。这是第一个问题,咱们怎么认识和其它竞品自动驾驶的梯队。现在是第一梯队,和别的品牌比有什么优势?
还有个小问题,我自己自身自动驾驶的问题。刚才看的是30万连续高速,那别的品牌宣传比较少,其实30万距离很长,会不会出现这种情况,我原来开过一些自动驾驶的车,比如举一个例子,从北京开到天津,高速域是开放NOA的,中间经过廊坊就断了,会有这么一个问题。可以宣传30万,30万很长,但固定有几个路线走下来这个10万那个10万,需要有连续性,高速域开放的逻辑水平。
姜海鹏:首先说自身的优势,从去年下半年开始,从城市NOA开始运转,华为、小鹏也好,非常感谢这两家头部企业。原来我们预判城市NOA在2025年落地,恰恰由于咱们国内头部在非常深入的推广这套系统,起初是有图的,后来逐步演化成大模型的无图架构。正因为它们相对激进的推动力度,其实教育了我们用户,也把城市NOA推向智驾最热门的场景。
今年过年以后我们在CES之间深度试驾了特斯拉,回国以后所有开通智驾功能的车型,华为也好、小鹏也好、理想等等我们都深度做了一些评测和试驾。我觉得我们目前的状态不输于任何一家,如果非要排个名的话我认为我们在前三的水准,大家可以自己评价试驾一下。有没有任何吹牛的成分。
试驾有几个前提,第一是大家一定要有城市NOA试驾的基础,不要盲测或者一张白纸去测,你不知道系统的边界在哪儿,我们到底采用什么样的场景来去评测,这方面要具备一定的驾驶经验,具备城市NOA驾驶经验,这是第一点。
第二,要选择一些城市,现在几乎每一个算法公司或者主机厂都在讲端到端大模型,我可以负责任的告诉大家,现在真正全球搞端到端的,已经按照端到端架构去做的不超过三家,而且即使在端到端架构之下,其实内部也嵌入了很多规则的安全问题。因为端到端本身不是说去年或者今年特斯拉才提出这个概念,一开始做自动驾驶的时候大家就知道一定有模型化,只不过那会能力不够,模型不够、芯片不行、数据量不够。所以先把感知模型化,模型进一步模型化,慢慢推到决策这一端。原来没有模型的时候我们靠规则去做,后来发现一进城,如果我们还按照规则去做那代码是上亿行代码,你也没有办法满足城市这种场景需求。如果无限制的往上堆代码,可能一个自动驾驶没有3000人没有5000人写不好城市规则,即使写了以后有一个变动你也很难解决。所以走到今天大家已经很清楚的知道我们必须用数据驱动跑起来,才能降低人员代码的数量,降低成本,否则是不能成立的。
基于这个,我建立我们做评测做比对的时候可以找一些陌生城市,大家谁都没去过,我一直在公司内部想推一个智驾红色旅游区,我们去延安,延安大家在开车的时候谁也不会注意到这个城市是一个三线城市吗,那边没有高精地图。我们目前这套架构优势确实是不同的架构,我去了很多城市测试,特意到小县城去一些地区市激活这个功能去体验。
确确实实我们把感知模型化都已经做出来了,从模型里面能输出横中向所需要的数据,据我理解行业里有很多都没有做到,是很难的一件事。一旦模型化以后迭代速度和用户体验直线往上升。还有端到端,包括一些宣传端到端需要海量的数据,这样的理解我认为是有偏差的,我们做下来以后发现大模型是需要数据,不是一个海量的推理,需要的是分布,数据分布成什么样很关键。比如我有十个场景数据,我有几PB几十PB没有意义,如果场景数据分布得很完备,我什么样的场景都见过,这样对大模型的训练是最好的。所以大模型本身对于数据量的要求是一个维度,再就是对数据的分布是更重要的一个要求。所以这块我们也在通过大量的数据采集采用各种各样的数据来提高训练精度。这是第一个问题。
第二个问题,刚才说的30万公里路测,一上市全国各地都会开通,不会按城市和按区域开通,它是一个必备的要素。当然高速都认为很简单,其实我觉得之前因为有高精地图加持,做得并不细化,高速迭代完这些场景,都说高速场景很单一,你看你怎么算。
我给大家举几个例子,高速有双车道有三车道有四车道,有隧道、有桥梁、有下坡、有下坡、有施工场景、有雨天、有夜天,如果我们做一个数学方面乘积是累加出来的,我们算法里面有1万个场景,这1万多场景到底有几个厂家真正把这些场景验证,非常非常少。我们在一步一步往前走,因为有很多场景可遇不可求,比方下雨天赶上一个隧道正在施工,这样的场景到底能不能满足,其实是一个很小的概率,但如果你不能满足,如果遇到这个难题怎么办,会不会出问题,其实我们正在做这些极限的验证。我对高速非常放心,我觉得问题不大,但真正把高精地图去掉以后发现那么多问题。我算了算在高速场景量产无图的高速NOA就两家,大家回忆一下能数上来的高速NOA厂家基本都有高精地图,因为它本身就有这个资源,城市里面不做高精地图是因为没有地图资源,不让采数据,高速都比较谨慎,高速速度很快,危险系数比较高的,宁可多花点钱把高精地图保留下来,我们做得比较干脆,直接砍掉了,做的过程中发现有图和无图带来的差异那么大。我们现在很自信,我前段时间从保定开车去了一趟成都,又从成都去了重庆,开了20个小时,接管极少,而且你在这个车上开十小时车感觉不到累,尤其是过了秦岭路段,很多公司在高速都没跑过双车道极窄,全是隧道,有的隧道一上就是十几公里,对于信号考验非常大,这方面测试要做好。
第三个问题,村没有车道线,没有车道线场景目前来说对于现在的BEV架构来讲是必须要解决的问题,不解决这个我们是没有办法做的因为我们在路口跟路口之间红绿灯肯定有一段没有车道线,其实在2021年我们测试的时候没有一台车在城市里面通过这样无线的十字路口,只要车道线一调感觉不到立马功能就会退,这两年通过BEV架构可以把道路还原出来。现在有几种方式,有的通过虚拟车线的方式,这是相对初级的一些做法。我们的算法完全通过模型自己出引导线,我看了没有线我依据场景还原度把规划输出出来,我知道这个车能走,就是通过模型去做,目前按照这个技术去做,整体来说拟人化程度更高一些。
媒体:车企对端到端感觉比较乐观,还是有一些不确定性,长城那边怎么去看待规避风险?
姜海鹏:端到端一定是未来,但不是终点,现在还有更超前的东西,真正智能驾驶终点一定像人一样有思考,对场景有理解,基于对场景有理解基础之上做智驾的动作。
举一个简单例子,我们在开车的时候前面有一个黑色塑料袋,如果两边有车没有办法绕它,我们人一定会压过去,因为我知道这是一个软体,我可以碾压它,第一是不会出事故,第二不会对我车辆造成伤害。现在不一样,没有办法知道前面是个软体,只知道是障碍物,要么刹车要么避让。未来自动驾驶一定是对场景理解之下的自动驾驶,我们也在做这方面的预案和开发。我们现在有一些基础,首先从芯片角度,像英伟达的sor(音),包括我们据了解国内一些大厂芯片公司也朝着这方面定义自己的芯片,你们要支持类似于大语言模型运行芯片。
从模型角度,有我们所谓的语言模型,类似open AI,支持我们做一些理解,然后做一个感知做一个综合判断,这方面才是将来的终局。端到端刚才也提到一点,其实端到端就是当前基于自动驾驶本身一套技术逻辑,就是从感知这个模型化到融合模型化最后到规模模型化,是分段的,刚才苏州老师也讲了一下这个阶段。因为人越来越懒,做开发尤其做软件代码做算法,极其烧脑袋的工作,他们要想自己的工作变得更简单怎么办,搞AI的同学特别烦碰代码,因为他们觉得写代码太浪费我的时间了,所以他们极其有自驱力,我要把代码转化成模型,一旦成了模型以后云端自己适应,我就不管它了,我研究我的模型,怎么优化就好了,然后把所有的东西都往前放。首先研发人员有这个自驱力,而且这种优化其实带来的体验是比较好的,所以端到端我们认为就是一个技术发展阶段,但不是智能驾驶的终点。
媒体:咱们长城这边城市NOA节奏比预期要晚一点,中间我们做了哪些调整,包括产品也换了,时间往后调了。第二,我们刚开始只有缆车这个车,有没有足够的用户反馈机制,同时OTA结构怎样?
吴会肖:刚才海鹏说大规模普及在2025年,我们去年判断节点是2024年上半年。后来跟整车协同,包括在开放过程中对这个模型架构上做了一些调整。然后在落地过程中我们也发现整个行业里面都会面临和用户接受人机共驾的阶段,还是因素比较多。蓝山智驾款上市就会有这个功能,但最近开多少城开完城之后多少路段开放也做了解释。关于上车之后OTA检测刚才吴国苏州也放了一张图,我们马上会开直播,也会请大家去亲自试我们车,主交互会有一些优化和调整,开城不会再OTA了,很快就开了。我们保定周围面积很大,有农村有山,我们都会到这些路段去测,不用担心,把能导航的切得很碎,一些环岛、掉头人开都很复杂的需要接管。刚才还讨论,下车进到程序里面还需要退一下,把ETC和高速NOA和城市NOA再连接一下,车上标配的ETC,现在正在做打磨。
姜海鹏:你说的是我们车定的是6月30日,往后挪了两个月的时间,这个延期不是我智驾方面延期,是他们车型方面延期。非常感谢给我们智驾多了两个月的时间,因为他们在做一些组织架构一些优化。
媒体:刚才苏州老师讲的时候说了一个场景,在做辅助驾驶规划的时候还是有个安全兜底,因为我也是做汽车的,咱们原来十年前长城博士,现在是友商。我比较理解这个东西,我理解我们做一个冗余,其实现在有个场景,经常性的有各种垂媒来测AEB测速也好,让用户来看感觉谁的车速越高,或者谁的性能越好,那他的车牛。但我从作为一个电动车主体验来看,余量留得特别多也不好,在应试工况里面这种成绩会好,我的那个车经常AEB误触发,我很不喜欢过于保守的冗余。
第一,长城会卷这方面的东西吗?第二是对端到端大模型,我们不是在做单纯的一些算法,而是通过学习无数用户已经产生过的case,是不是能解决类似于这样的用户体验?
姜海鹏:首先我们肯定会卷这个东西,不卷不行,这两年自动驾驶突飞猛进,加快了行业的速度,加快了大家对这个领域的认知,但AEB这个事老实说本来是一个紧急救命的功能,现在变成了一个体验的功能,违背了ABE的原则。我们看120公里刹停,包括行业里面有很多测试这些场景,其实带来积极作用很大,也带来一些负面影响,我们在疯狂追求这些数据,唯一一个考核最大的指标项没人能做,就是你怎么能在触发和不触发之间找到一个平衡,全球做AEB最好的是膜拜,它的误触发率大概是几百万公里,但目标很简单,就是行人、车辆、自行车,并不是没有识别的能力,是因为发现他发现如果把锥桶拉进去以后误触发直线上升,每一次误触发比漏触发甚至正确触发带来的危害还要大,因为不预期的刹车有可能会造成大面积的追尾,这都是经过严格数据评测、实验得出来的结论,现在只看数字漂亮不漂亮,这个误触发没有办法公开测试。因为测试的复杂度导致我们测这些特别表面化的数据,其实把我们AEB路自带得有点偏颇了。
今天也跟各位媒体老师做个交底,评测AEB最大的指标是不触发,绝不是120公里刹停。放在现在这些头部自动驾驶公司里面都能做到,为什么大家不去做,一旦放开以后误触发率直线上升,希望大家报道的时候能够有一些正确的引导,这才是对这个专业负责任的一种态度。首先这是AEB这一块。
吴国苏州:现在端到端状态大家想象的是说大量的车产生数据了,把车身境况摄像头把数据采回来模型去学,不是那么简单,按可以想象虽然人学驾驶越来越好,但人实际说对驾驶这件事情很难想象一个字都不识的人他能把驾照考出来,要积累对基础背景知识,对运动目标判断,对于AI神经网络也是这样,你得通过一些机器学习和训练手段,通过网络机器设计,让网络本身能具备发现道路上和你有影响的结构化的一些特征,这些东西其实都需要工程师通过工程技术设计的,只有把这些东西都设计好了,你才能有可能学最后一步,学人类的驾驶,并不是那么容易。
很可惜,现在完全端到端让模型设计好了一次性学出来,现在的表现实际上在大部分场景下挺差的,所以才会有业界说的两段式的端到端、模块化的端到端也好,先去感知模型,这是比较理想,甚至实景模型串在一起来去做所谓的端到端,实际上这都是工程技术上的妥协。第一是理念上,第二是工程上,你想办法一点点做法,慢慢随着8经验积累和技术提升才有可能把模块化的端到端向完全端到端迁移,最后才能形成我学习就可以了,这个事情绝对不是说一天两天或者一步,我前面的路不走我直接走后面的路达成,这个不太可能。