Het herzien van het wereldmodel voor autorijden als synthetische datagenerator voor perceptietaken
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
October 22, 2025
Auteurs: Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang
cs.AI
Samenvatting
Recente vooruitgang in rijsimulatiemodellen maakt de aansturing van hoogwaardige RGB-video's of multimodale video's mogelijk. Bestaande methodes richten zich voornamelijk op metrieken met betrekking tot de generatiekwaliteit en aanstuurbaarheid. Echter, ze verwaarlozen vaak de evaluatie van downstream-perceptietaken, die cruciaal zijn voor de prestaties van autonoom rijden. Bestaande methodes gebruiken meestal een trainingsstrategie die eerst voorgetraind wordt op synthetische data en daarna wordt afgestemd op echte data, wat resulteert in tweemaal zoveel epochs vergeleken met de baseline (alleen echte data). Wanneer we het aantal epochs in de baseline verdubbelen, wordt het voordeel van synthetische data verwaarloosbaar. Om het voordeel van synthetische data grondig aan te tonen, introduceren we Dream4Drive, een nieuw raamwerk voor synthetische datageneratie, ontworpen om downstream-perceptietaken te verbeteren. Dream4Drive decomposeert eerst de invoervideo in verschillende 3D-aware begeleidingskaarten en rendert vervolgens de 3D-assets op deze begeleidingskaarten. Ten slotte wordt het rijsimulatiemodel afgestemd om de bewerkte, multi-view fotorealistische video's te produceren, die kunnen worden gebruikt om de downstream-perceptiemodellen te trainen. Dream4Drive biedt een ongekende flexibiliteit bij het grootschalig genereren van multi-view corner cases, wat de perceptie van corner cases in autonoom rijden aanzienlijk verbetert. Om toekomstig onderzoek te vergemakkelijken, dragen we ook een grootschalige 3D-assetdataset genaamd DriveObj3D bij, die de typische categorieën in rijsenario's dekt en diverse 3D-aware videobewerking mogelijk maakt. We voeren uitgebreide experimenten uit om aan te tonen dat Dream4Drive de prestaties van downstream-perceptiemodellen effectief kan verbeteren onder verschillende trainingsepochs.
Pagina: https://wm-research.github.io/Dream4Drive/ GitHub Link: https://github.com/wm-research/Dream4Drive
English
Recent advancements in driving world models enable controllable generation of
high-quality RGB videos or multimodal videos. Existing methods primarily focus
on metrics related to generation quality and controllability. However, they
often overlook the evaluation of downstream perception tasks, which are
really crucial for the performance of autonomous driving. Existing
methods usually leverage a training strategy that first pretrains on synthetic
data and finetunes on real data, resulting in twice the epochs compared to the
baseline (real data only). When we double the epochs in the baseline, the
benefit of synthetic data becomes negligible. To thoroughly demonstrate the
benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data
generation framework designed for enhancing the downstream perception tasks.
Dream4Drive first decomposes the input video into several 3D-aware guidance
maps and subsequently renders the 3D assets onto these guidance maps. Finally,
the driving world model is fine-tuned to produce the edited, multi-view
photorealistic videos, which can be used to train the downstream perception
models. Dream4Drive enables unprecedented flexibility in generating multi-view
corner cases at scale, significantly boosting corner case perception in
autonomous driving. To facilitate future research, we also contribute a
large-scale 3D asset dataset named DriveObj3D, covering the typical categories
in driving scenarios and enabling diverse 3D-aware video editing. We conduct
comprehensive experiments to show that Dream4Drive can effectively boost the
performance of downstream perception models under various training epochs.
Page: https://wm-research.github.io/Dream4Drive/ GitHub Link:
https://github.com/wm-research/Dream4Drive