比特斯拉还少1个摄像头!智能车赛道最隐秘的AI视觉玩家浮现
智能车赛道,藏着一个最隐秘的AI视觉玩家。
(资料图)
这个玩家尚未官宣任何智能车相关的业务进展,但又在最核心、最前沿、最被渴求的自动驾驶系统能力上屡屡展现竞争力——全球AI顶会冠军级的统治力。
不仅具体技术上突出,在目标检测、语义分割、视觉推理等方面有诸多顶会级研究;还拿下多个自动驾驶相关比赛的冠军,甚至还用7个摄像头的纯视觉方案,完成了高速、城区和泊车环境的自动驾驶。
这个玩家不是特斯拉的AI团队,这个玩家是旷视科技。
在最近的AI顶会CVPR中,大模型加持下的视觉研究,正在驱动自动驾驶方向的新研究,而旷视研究院,在一众自动驾驶和智能车玩家参与的竞赛中,获得了考察自动驾驶环境感知能力的冠军。
AI视觉领域的超级明星,现如今在业务上还没有与智能车传出关联。
但有这样的技术研究和成果,当真会纯出于学术研究?
旷视刷榜了什么自动驾驶比赛?
旷视研究院参加的这个比赛,是CVPR 2023专门面向自动驾驶感知决策系统设立的挑战赛。
其中OpenLane拓扑关系挑战赛冠军,被旷视收入囊中。
挑战赛一共四个赛道,除了旷视参加的OpenLane拓扑关系挑战赛(OpenLane Topology),还有在线高精地图构建挑战赛(Online HD Map Construction)、三维占据栅格预测挑战赛(3D Occupancy Prediction)和nuPlan规划挑战赛(nuPlan Planning)。
其中,OpenLane拓扑关系赛道主要考察自动驾驶技术理解场景的能力。
赛道要求基于OpenLane-V2(OpenLane-Huawei)数据集,输入给定环视相机照片,参赛者需要输出车道中心线和交通元素的感知结果,以及这些元素之间的拓扑关系预测。
也就是说,这个比赛不是考察以往自动驾驶感知中,对车道边缘线或者交通标志单一的识别能力,而是要求自动驾驶技术可以感知车道中心线,还要能理解车道中心线和交通元素的逻辑关系,比如绿灯亮了,这意味着哪条车道可以通行。
那么如何判定冠军?OpenLane-V2数据集提供了判定标准:OLS分数(OpenLane-V2 Score),通过计算感知结果和拓扑预测mAP的平均值判定得分。
在34个参赛队伍中,来自旷视研究院的队伍得分唯一超过55分,达到分,具有明显优势。
那么,旷视用了什么样的方法?
旷视的自动驾驶纯视觉方案
首先感知阶段,对于交通元素检测和车道中心线检测两个感知任务,旷视分别采用了两个不同的模型。
对于交通元素检测,旷视使用主流2D检测模型YOLO系列中最新一代YOLOv8作为baseline,相较于其他2D检测方法YOLO速度更快,性能更准确。
△图片来源:GitHub用户RangeKing
再加上比赛使用的数据集OpenLane-V2标注了交通标识和车道的对应关系,旷视在YOLOv8训练过程中增加Strong augmentation、Reweighting classification loss、Resampling difficult samples、Pseudo label learning和Test-time augmentation共5个trick,通过和前视角图像交互生成对应交通元素的特征。
对于车道中心线检测,旷视使用自研PETRv2模型作为baseline。PETRv2提供了一个统一的纯视觉3D感知框架,可以用于3D目标检测和BEV分割。
而在这次比赛中,旷视利用PETRv2从多视角图像中提取2D特征,以及利用摄像头截锥空间中生成3D坐标,把2D特征和3D坐标输入3D位置编码器。
随后使用3D位置编码器给Transformer解码器生成key和value组件,lane queries再通过全局注意力机制和图像特征进行交互,生成3D车道中心线检测成果和对应的车道中心线特征。
而在拓扑关系预测阶段,旷视基于YOLOv8和PETRv2搭建了一个多阶段的网络框架,并利用两个感知任务生成的成果拼接对应特征,再使用两层MLP预测对应的拓扑关系矩阵。
(图注:旷视最终在验证集上的预测结果,包括边框、类别和置信度)
最后从OLS得分来看,旷视团队的这套方法在交通元素感知(DETt)、车道线之间拓扑关系预测(TOPll)和车道线与交通元素拓扑关系预测(TOPlt)方面均领先于其他参赛者。
智能车赛道最隐秘的AI视觉玩家
参加这次比赛的,是旷视研究院的MFV(Megvii-Foundation model-Video)团队。
比赛成果论文一作是吴东明,2019年在北京理工大学徐班取得学士学位,后来继续在北理攻读计算机系的博士学位,师从沈建冰教授,在2022年成为旷视研究院的研究实习生。
论文的其他作者也都来自旷视研究院,其中Chang Jiahao毕业于中国科技大,Li Zhuoling毕业于香港大学。
值得一提的是,这次挑战赛使用的PETRv2模型,还是旷视研究院创始院长孙剑博士去世前,带领研究团队发布的学术成果之一。
并且,这也不是旷视唯一的自动驾驶相关研究成果。
除了PETR系列大模型,旷视还发布过BEVDepth检测模型(可对3D目标实现高精度的深度估计),LargeKernel3D(首次证明大卷积核对3D视觉任务的可行性和必要性),BEVStereo(nuScenes纯视觉方案3D目标检测SOTA)等……都是行业领先级的技术成果。
△BEVStereo模型框架
一直以来,旷视研究院都是旷视AI技术的研发“大脑”,主攻深度学习和计算机视觉方向,也是包括AI生产力平台Brain++、开源深度学习框架天元MegEngine、移动端高效卷积神经网络ShuffleNet等成果的诞生地,已经对外发表了超过120篇全球顶会论文;斩获顶级赛事中冠军数超过40项,拥有1300余件业务相关专利授权。
而且在区别于纯研发或前沿技术预研布局的企业研究院,旷视研究院从一开始就被作为作战部队使用,所以旷视研究院的最新成果、瞄准的方向,一般都不会一时兴起,或者纯为研究而研究。
于是这也是旷视接二连三在自动驾驶、智能车赛道方向上产出顶级成果后,需要关注的地方。
相比老朋友商汤科技,旷视至今没有官宣任何智能车、自动驾驶业务或合作,而商汤则推出了专门的智能车业务品牌绝影,由联合创始人王晓刚带队,目标要成为商汤的支柱型新增长引擎。
对于智能车和自动驾驶这样的万亿规模赛道,旷视会始终心如止、按兵不动?不太可能。
更何况从技术研究能力到技术实现水平,都已经通过顶会得到了展现。
以及,旷视研究院还展示过一段自动驾驶预研Demo,仅使用7个摄像头,就能实现高速公路和城区的自动驾驶,并且还能完成水平、垂直以及侧方位停车。
这是什么水平?
作为参考,纯视觉王者特斯拉,自动驾驶感知方案最少也需要8个摄像头。
论文传送门:
/e2ead/AD23Challenge/Track_1_
关键词:
您可能也感兴趣:
为您推荐
特斯拉升级引荐奖励!可抵扣车辆尾款……
东阿阿胶(000423):1H23利润预喜 双轮驱动实现良性增长
中国证券业协会组织开展2022年证券公司发布证券研究报告业务经营情况的统计
排行
最近更新
- 比特斯拉还少1个摄像头!智能车赛道最隐秘的AI视觉玩家浮现
- 大学四年如何不虚度,这份攻略送给准大学生
- 精锻科技(300258):2023年7月5日投资者关系活动记录表
- 天天喊着要健身的打工人,养得活Keep吗?
- 宁夏建材(600449.SH):与中建信息重组目前尚处于重组草案阶段...
- 百队杯推出新“玩法” 元宇宙空间即将上线
- 精锻科技(300258.SZ):公司对全年实现20%以上的收入增长充满信心
- 脑虎科技完成犬和猴的脑机实验 彭雷说脑机产业迎来摩尔时刻
- 今日小暑:倏忽温风至,因循小暑来
- 世纪睿科正式更名交个朋友,罗永浩上市目标最终曲线达成
- 比亚迪上半年销售125万辆 稳坐全球新能源汽车销冠
- 《寂静岭》设计师外山圭一郎演示《野狗子:裂头怪》游戏
- 怎么看,怎么办——新华社五论中美关系
- 以案说法 依法治校 科华中路小学教师学习依法执教
- 傅政华罚没房产将被法拍,起拍价近2000万
- 遇到困难和挫折是人生的常态,福彩3D23178期晒票
- 进口水果调查:电商售卖名录之外水果多是国产
- 华东师范大学——寻甸县暑期专项实践活动启动
- 中南建设:“21中南建设MTN001”行权日更正为7月26日
- 最高人民检察院依法对付忠伟决定逮捕
- 湖北推出高校统战工作“十佳品牌”
- WAIC 2023 | 达闼机器人重磅发布业界首个机器人多模态大模型RobotGPT
- 暑运期间 重庆新开恢复多条国际航线
- 100元1TB的时代不远了?曝SSD价格还要继续大跌:三季度再降最多13%
- 重视夏季感染性腹泻,华森制药痛泻宁颗粒守护肠道健康
- 塔里木胡杨林公园美丽生态画卷受青睐 迎来旅游旺季
- 宁夏建材(600449.SH):与中建信息重组目前尚处于重组草案阶段...
- 公司问答 | 超图软件:目前公司在手订单充足
- 种业龙头封板涨停!厄尔尼诺影响发酵,三类农品或受影响,这...
- 佳禾食品(605300.SH):其他类产品基本是公司自有品牌