百度智能云:智驾真值方案变革,技术引领数据降本新浪潮
传统感知算法数据训练需要大量的标注数据,真值数据生产难、复用性差、成本高、效率低、可用性差,是阻碍模型能力提升的重要原因。
图片来源于网络,如有侵权,请联系删除
2024年4月17日,在第二届汽车人工智能大会上,针对动静态元素特征,百度智能云AI数据服务部高级产品经理张晓晓分享了相应的真值方案:BEV地图真值和真值车评测方案。百度智能云提供全套制图工具 + BEV地图真值 + 真值投影验证流程,拥有近万公里道路底图制作经验。
图片来源于网络,如有侵权,请联系删除
BEV静态地图比起高精地图,更关注正负样本路段,强调标注范围与时序数据对应,且可以实现多套传感器感知结果对齐。数据精度可以到cm级别,静态要素更精细。而成熟的真值车方案,解决改制落地慢、数据融合难的问题,且有专业采集团队、丰富采集经验,获取高质量路采数据,全流程数据处理工具服务,助力数据流转能效提升。
张晓晓 | 百度智能云AI数据服务部高级产品经理
以下为演讲内容整理:
真值地图与自动化标注探索
当前技术呈现出重感知、轻高精地图的趋势,重感知对感知算法提出了更高要求,覆盖场景更广、准招率更高,这就需要有更大规模、更高精度的感知增值输入。就真值数据成本而言,其最大的投入是人工标注。传统的真实生成是通过人工的标注方式产生,百度智能云在全国全职的标注人力约有一万人,且线上有较大规模的众包标注人力,但这么大规模的标注人力体量也仅能解决行业不到10%的标注问题。
除人工标注自身周期长的问题外,同一路段在更换车型、传感器方案或驾驶行为后,都需要进行重新标注。标注过程中,原始数据质量如模糊程度、光照、前身遮盖情况等都会影响人工标注效果,导致人工标注成本高、周期长、效率低,模型落地慢。因此行业在不断探索新的解决方案解决真值获取难的问题。
自动化标注是一大新趋势,近几年受到了极大关注。我们在实践应用的过程中发现自动化标注面临着不同场景适配度、可靠性等问题,因此有了新的解决思路,如引入大模型能力、真值地图和真值车的解决方案。
真值地图主要应用于地面静态元素或静态交通参与者的场景中。在自动驾驶技术减少车端对高精地图的依赖后,感知算法新的核心挑战便是静态元素。我们之前讨论了轻图无图方案,但为何又引入BEV地图的真值解决方案呢?实际上,真值地图并非直接应用于车端的规控算法中,而是在感知训练数据的真值生产过程中,作为真值的底图,其标注结果可以作为可信的真值值,直接投射到被测车辆所采集的感知数据上。
在采集过程中,我们的真值地图采集车相比传统采集车或高精地图采集车而言,会搭载更高精度的定位设备和密度更高的激光雷达,单个道路会以重复采集的方式获取更加稠密的点位信息。通过特征提取和多次采集聚合建图,我们可以看到点云底图中路面完整性更高,路边元素和道路结构性更加清晰,地面着色反馈十分明显。这种高质量的原始点云信息直接输入到自动化预标注算法里,能生成准确度更好的预识别结果,人工标注效率也有明显提升。而这种通过前后时序进行数据增强,通过未来的信息点,对当前局域地图进行补全,在局部融合地图上进行标注作业,也是经常提到的4D标注的概念。
图源:演讲嘉宾素材
真值地图构建与应用
除原始数据上获得了更稠密、更高精的原始点云信息外,我们还进行了进一步的深加工,可以称为真值地图的加工工艺。该加工工艺融合了传统静态元素标注,新增了新型地图标注以及类高精需求。
我们可以看一下真值地图加工中,覆盖了哪些元素场景。一是常规静态的真值,常见的路面标识、标志线、标牌、红绿灯等都是真值地图的覆盖范围。二是车道连接关系,特征点等,如路口的占据关系、可行驶区域和特殊路本的样本等都会进行特殊标注。三是类高精的需求和特殊静态标注需求。作为数据服务商,我们收集并分析了多家主流车厂的数据需求,深入了解了相关技术细节。例如,特殊路段的特定区域,如减速带、人行区和停车位等已成为标注新趋势,我们也将在真值底图中提供相应的标注能力,以满足客户的实际需求。
真值地图与单帧标注的不同在于,多次重复和更高精的定位设备中采集的原始点云底图密度更稠、边缘更清晰、结构更完整。在输入预识别算法时,能较快产生更准确的预识别结果,人工标注效率大幅提升,整体标注精度能达到99%以上。此外,还能避免单帧图片中遮挡多、脑补难等问题,且无需进行多帧、连续帧图片的重复标注、重复识别工作。“超精”的真值地图构建完成后,客户车辆可以在底图覆盖的区域行驶。
在底图覆盖区域进行采集后,我们获取到感知数据进行双份数据的时空对齐、定位算法的补充和运动补偿算法的补充,能够做到较好匹配,直接在底图上的真值映射到感知数据上,约1-2周匹配完成,之后就可以进行大规模自动化生产作业。
这套方案与传统的人工标注方案存在显著的差异,其最大的优势在于,一旦真值地图建设完成,后续大量的人工标注工作得以自动化处理。人工仅需负责质检工作,且质检过程也无需像传统标注质检那样进行修改或补充标注,仅需判断整条路段映射结果是否正确即可。这极大地降低了对人员能力的要求,使得质检工作更为高效和便捷。
此外,该方案还具有极强的可复用性。一旦真值地图建设完成,不同厂商的车辆和传感器方案均可直接在此底图上应用,稳定输出真值结果。无论是天气情况、遮挡情况还是传感器的状态,都不会对真值结果产生影响。
但其也存在一个劣势,即前期的真值底图投入成本极高。相较于高精地图的制作,真值底图的建设成本可能高达其3-5倍,这一制作成本若单独由一家OEM厂家或数据服务商承担,性价比较低。因此这是一个需要行业共建的方案,我们期望更多OEM和生态伙伴能加入这一项目,通过一次性底图建设,产生规模效益,共享成本红利。
真值车方案探索
对于动态元素的处理,近年来出现了新的解决方案——真值车方案。简而言之,该方案在被测车辆上搭载一套真值传感器,其特点在于精度更高、覆盖范围更广、盲区更小,且具备感知冗余性。通过采集生成更高精度的感知数据,再运用与之匹配的真值算法直接生成真值结果。这套真值传感器的结果可投射至被测车辆的感知数据上,或进行双向评测比较。
在真值车的搭建过程中,涉及到真值数据的采集、数据管理、真值的生成以及后续真值的应用,如真值评测等。我们在这方面会输出较为完整的技术解决方案和相应的数据方服务。
真值车层面,车辆改装成本高昂且周期长,后续数据融合难度较大。为此,我们推出了自己的真值车解决方案。该方案搭载了一体化真值模块设计,其中融合了真值传感器模块与数采模块。采用分体式设计,可以快速上车,对SUV或轿车都有较好的适配性。
此外,我们提供全面的改装服务,包括时间同步、标定等技术服务,旨在解决后续数据使用中的各类问题。在实际应用案例中,红旗车便采用了我们的真值车方案,使用了分体式设计,外观和采集都十分稳定。此外,感知传感器模块均采用了高精度的设备。
真值车搭建完毕后,我们进入后续数据采集阶段。在此过程中,企业面临着合规性问题。随着政策法规的日益严格,合规性已成为企业面临的重要挑战。作为拥有双甲测资质的图商之一,我们能够为企业提供全面的资质保障服务及合规方案,确保数据采集的合规性。同时,凭借多年的数据采集经验,我们拥有丰富的采集技巧和路线规划能力,能够精准覆盖企业所需的各种场景。
完成数据采集后,数据将进入我们的数据管理平台,能够针对智能驾驶领域数据特征和后续应用的需求场景进行定制化建设。其中具备丰富的工具库,能够针对智能驾驶数据进行清洗、合规处理和数据挖掘等工作。此外,我们的数据管理平台还内置了一套自动化工作流引擎,能够支持企业常规大规模重复性的数据处理工作,实现流程化操作。
在整个数据管理模块中,感知生成算法是至关重要的环节。真值数据的生成依赖于两大模块,一是真值算法积累,二是人工调优工具。真值算法主要依托于智能驾驶领域的域识别算法积累,以及百度大模型在智能驾驶领域的应用。目前,我们的真值模型已经覆盖约20+标注场景,除静态真值场景外,还涵盖了动态、行人、车辆、动物等参与者,以及泊车时的锥筒等场景。
图源:演讲嘉宾素材
由于真值系统自动化识别结果的准确率仅达90%左右,后续仍需进行人工调优工作。为此,我们内置了人工调优平台,能够快速进行数据验证和人工调优工作。
真值应用的一个方向是将其投射到原车传感器上,自动化生成真值,替代人工标注工作。另一个方案是进行真值评测,能够迅速将真值导入评测平台进行评估。该评测平台是我们在往期项目中不断与客户共同建设和积累的,目前已积累了30多个模型评价指标,后续也将通过实际应用和企业客户的持续合作不断完善。
以上两个方案在百度智能云已有一到两年的技术探索和实际项目经验。我们在数据获取方面拥有完整的解决方案,能够输出百度智能云相应的技术能力。这两个解决方案在行业内具有前瞻性和探索性,我们期待与行业合作伙伴和OEM、Tier1客户共建,共同降低真值获取的难度和成本,加速智驾模型的落地。
(以上内容来自百度智能云AI数据服务部高级产品经理张晓晓于2024年4月17日-18日在第二届汽车人工智能大会发表的《智驾真值方案变革,技术引领数据降本新浪潮》主题演讲。)