技術(shù)文章
在自動駕駛感知的下半場,數(shù)據(jù)已成為驅(qū)動算法迭代的核心燃料。然而,真實路測數(shù)據(jù)面臨著成本高昂、標注困難、特殊場景(Corner Cases)難以覆蓋以及安全性受限等“卡脖子"問題。
面對這一核心痛點,虛擬仿真數(shù)據(jù)已成為解決方案中的關(guān)鍵角色,成為確保開發(fā)效率與安全性的重要一環(huán)。免費獲取 | SimData高保真虛擬數(shù)據(jù)集開源發(fā)布,兼容nuScenes,開箱即用!文章中,簡單介紹了一下SimData數(shù)據(jù)集情況,本文將深度解析該SimData自動駕駛虛擬數(shù)據(jù)集——由aiSim仿真平臺構(gòu)建,從數(shù)據(jù)生產(chǎn)工具鏈、數(shù)據(jù)集結(jié)構(gòu)到基于BEVFormer的深度評測,展示高保真合成數(shù)據(jù)的應用價值。
虛擬數(shù)據(jù)要真正落地,首要解決的是與現(xiàn)有主流數(shù)據(jù)格式的兼容性。SimData方案不僅提供數(shù)據(jù),更提供了一套完整的aisim2buscenes自動化轉(zhuǎn)換工具鏈,并且構(gòu)建了虛擬數(shù)據(jù)集的評測流程框架。

虛擬數(shù)據(jù)集構(gòu)建以及評測流程框架
我們開發(fā)了自動化腳本與GUI工具,實現(xiàn)了從aiSim導出數(shù)據(jù)到nuScenes標準格式的一鍵轉(zhuǎn)換。
格式對齊:自動將aiSim原始數(shù)據(jù)(TGA圖像、LAS點云、Radar JSON)轉(zhuǎn)換為nuScenes兼容格式(JPG、BIN、PCD)。
結(jié)構(gòu)一致:生成的文件夾結(jié)構(gòu)(maps, samples, sweeps, v1.0-custom)可直接被nuscenes-devkit解析,無需修改現(xiàn)有訓練代碼。
智能切片:腳本支持多場景、多地圖轉(zhuǎn)換,默認每場景40關(guān)鍵幀(每10幀抽取1關(guān)鍵幀),自動處理非關(guān)鍵幀歸檔。
工具鏈支持復雜傳感器配置的數(shù)據(jù)生成與驗證:
傳感器配置:目前支持6路相機、5個Radar、1個LiDAR的多源融合感知。
可視化驗證:內(nèi)置腳本支持LiDAR點云、Radar PCD文件以及帶3D GT框的圖像/BEV視角可視化,確保數(shù)據(jù)“所見即所得"。
基于上述工具鏈,我們構(gòu)建了SimData數(shù)據(jù)集,旨在覆蓋高速、城區(qū)、停車場等典型及復雜道路環(huán)境。
規(guī)模統(tǒng)計:包含15個獨立地圖,共計45個場景。
數(shù)據(jù)體量:單個傳感器輸出約18,000張圖像/幀數(shù)據(jù),總樣本量充足。
類別擴展:在nuScenes原有的Car, Pedestrian, Truck, Bus等常見類別基礎上,新增了Van(面包車)類別,共計10類目標,彌補了部分長尾數(shù)據(jù)的缺失。
10個類別:
{ "Van", "Trailer","Pedestrian", "Car", "Truck", "Bus", "Motorcycle", "Bicycle","TrafficCone","Barricade" }
虛擬數(shù)據(jù)形象部分示例:

環(huán)境多樣性:
Highway:高速公路匝道、施工區(qū)。
Urban:擁堵城區(qū)、環(huán)島、十字路口。
Parking:室內(nèi)外停車場環(huán)境。
地圖示例:

為了驗證SimData在感知算法中的有效性,我們選用BEV感知領(lǐng)域的經(jīng)典模型 BEVFormer (Tiny版),進行了多維度的對比實驗與分析。
在SimData劃分的訓練集(30個場景)上訓練,并在測試集(15個場景)上評估,模型展現(xiàn)了良好的收斂性。

結(jié)果:mAP達到 0.446,NDS達到 0.428。
結(jié)論:SimData能夠支持復雜感知模型的正常訓練與推理,數(shù)據(jù)質(zhì)量合格。
我們對比了“基于SimData訓練的模型"與“基于真實nuScenes訓練的模型"在同一份虛擬數(shù)據(jù)上的表現(xiàn),以探究域分布差異。

相關(guān)性分析:兩者在各類別的AP(平均精度)分布上呈現(xiàn)高度正相關(guān)。
熱力圖對比:在不同距離范圍的檢測熱力圖上,兩者表現(xiàn)出非常相似的分布趨勢。
結(jié)論:SimData的高保真度體現(xiàn)在幾何結(jié)構(gòu)、光照、材質(zhì)及動態(tài)特性上,真實世界學到的先驗知識可以有效遷移到該仿真域中。
這是本次評測最核心的發(fā)現(xiàn)。我們嘗試將nuScenes預訓練模型在SimData上進行微調(diào)(Fine-tuning)。

實驗結(jié)果:微調(diào)后的模型在SimData上的檢測精度顯著提升,性能甚至超過了從零開始訓練(Train from Scratch)的模型。
雷達圖分析:在Car, Truck, Bus等主要類別上,"Pretrained + Finetune"(藍線)包圍面積,表現(xiàn)優(yōu)秀。
這一結(jié)果有力證明了:
SimData的域特性與真實數(shù)據(jù)足夠接近,不存在巨大的域鴻溝。
利用大規(guī)模真實數(shù)據(jù)預訓練 + 針對性虛擬數(shù)據(jù)微調(diào),是提升模型在特定場景(如特殊工況)泛化能力的有效路徑。
SimData及配套工具鏈的推出,為自動駕駛數(shù)據(jù)閉環(huán)提供了一種低成本、高效率的解題思路。
易用性:aisim2nuscenes工具鏈讓仿真數(shù)據(jù)即插即用,無縫融入現(xiàn)有開發(fā)流。
真實性:評測數(shù)據(jù)表明,SimData與真實數(shù)據(jù)分布趨勢一致,具備很高的物理感知價值。
價值點:它不僅能作為感知模型的訓練補充,更是驗證模型泛化能力、解決長尾問題的理想“演兵場"。
未來,隨著數(shù)據(jù)集規(guī)模的進一步擴大(解決部分類別樣本稀缺問題),SimData有望在更復雜的感知任務中發(fā)揮關(guān)鍵作用,助力自動駕駛算法加速迭代。
關(guān)注微信