Het herzien van het wereldmodel voor autorijden als synthetische datagenerator voor perceptietaken

Samenvatting

Recente vooruitgang in rijsimulatiemodellen maakt de aansturing van hoogwaardige RGB-video's of multimodale video's mogelijk. Bestaande methodes richten zich voornamelijk op metrieken met betrekking tot de generatiekwaliteit en aanstuurbaarheid. Echter, ze verwaarlozen vaak de evaluatie van downstream-perceptietaken, die cruciaal zijn voor de prestaties van autonoom rijden. Bestaande methodes gebruiken meestal een trainingsstrategie die eerst voorgetraind wordt op synthetische data en daarna wordt afgestemd op echte data, wat resulteert in tweemaal zoveel epochs vergeleken met de baseline (alleen echte data). Wanneer we het aantal epochs in de baseline verdubbelen, wordt het voordeel van synthetische data verwaarloosbaar. Om het voordeel van synthetische data grondig aan te tonen, introduceren we Dream4Drive, een nieuw raamwerk voor synthetische datageneratie, ontworpen om downstream-perceptietaken te verbeteren. Dream4Drive decomposeert eerst de invoervideo in verschillende 3D-aware begeleidingskaarten en rendert vervolgens de 3D-assets op deze begeleidingskaarten. Ten slotte wordt het rijsimulatiemodel afgestemd om de bewerkte, multi-view fotorealistische video's te produceren, die kunnen worden gebruikt om de downstream-perceptiemodellen te trainen. Dream4Drive biedt een ongekende flexibiliteit bij het grootschalig genereren van multi-view corner cases, wat de perceptie van corner cases in autonoom rijden aanzienlijk verbetert. Om toekomstig onderzoek te vergemakkelijken, dragen we ook een grootschalige 3D-assetdataset genaamd DriveObj3D bij, die de typische categorieën in rijsenario's dekt en diverse 3D-aware videobewerking mogelijk maakt. We voeren uitgebreide experimenten uit om aan te tonen dat Dream4Drive de prestaties van downstream-perceptiemodellen effectief kan verbeteren onder verschillende trainingsepochs. Pagina: https://wm-research.github.io/Dream4Drive/ GitHub Link: https://github.com/wm-research/Dream4Drive

English

Recent advancements in driving world models enable controllable generation of high-quality RGB videos or multimodal videos. Existing methods primarily focus on metrics related to generation quality and controllability. However, they often overlook the evaluation of downstream perception tasks, which are really crucial for the performance of autonomous driving. Existing methods usually leverage a training strategy that first pretrains on synthetic data and finetunes on real data, resulting in twice the epochs compared to the baseline (real data only). When we double the epochs in the baseline, the benefit of synthetic data becomes negligible. To thoroughly demonstrate the benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data generation framework designed for enhancing the downstream perception tasks. Dream4Drive first decomposes the input video into several 3D-aware guidance maps and subsequently renders the 3D assets onto these guidance maps. Finally, the driving world model is fine-tuned to produce the edited, multi-view photorealistic videos, which can be used to train the downstream perception models. Dream4Drive enables unprecedented flexibility in generating multi-view corner cases at scale, significantly boosting corner case perception in autonomous driving. To facilitate future research, we also contribute a large-scale 3D asset dataset named DriveObj3D, covering the typical categories in driving scenarios and enabling diverse 3D-aware video editing. We conduct comprehensive experiments to show that Dream4Drive can effectively boost the performance of downstream perception models under various training epochs. Page: https://wm-research.github.io/Dream4Drive/ GitHub Link: https://github.com/wm-research/Dream4Drive

Het herzien van het wereldmodel voor autorijden als synthetische datagenerator voor perceptietaken

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Samenvatting

Support