Ripensare il Modello del Mondo della Guida come Generatore di Dati Sintetici per i Compiti di Percezione
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
October 22, 2025
Autori: Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang
cs.AI
Abstract
I recenti progressi nei modelli di mondo di guida consentono la generazione controllata di video RGB di alta qualità o video multimodali. I metodi esistenti si concentrano principalmente su metriche relative alla qualità della generazione e alla controllabilità. Tuttavia, trascurano spesso la valutazione dei compiti di percezione a valle, che sono cruciali per le prestazioni della guida autonoma. I metodi esistenti utilizzano solitamente una strategia di addestramento che prevede prima un pre-addestramento su dati sintetici e un successivo affinamento su dati reali, risultando in un numero di epoche doppio rispetto al baseline (solo dati reali). Quando raddoppiamo le epoche nel baseline, il beneficio dei dati sintetici diventa trascurabile. Per dimostrare approfonditamente il vantaggio dei dati sintetici, introduciamo Dream4Drive, un nuovo framework di generazione di dati sintetici progettato per migliorare i compiti di percezione a valle. Dream4Drive scompone prima il video di input in diverse mappe di guida 3D-aware e successivamente renderizza le risorse 3D su queste mappe di guida. Infine, il modello di mondo di guida viene affinato per produrre i video editati, fotorealistici e multi-view, che possono essere utilizzati per addestrare i modelli di percezione a valle. Dream4Drive consente una flessibilità senza precedenti nella generazione su larga scala di casi limite multi-view, migliorando significativamente la percezione dei casi limite nella guida autonoma. Per facilitare la ricerca futura, contribuiamo anche con un ampio dataset di risorse 3D chiamato DriveObj3D, che copre le categorie tipiche degli scenari di guida e consente diverse operazioni di video editing 3D-aware. Condurre esperimenti completi per dimostrare che Dream4Drive può migliorare efficacemente le prestazioni dei modelli di percezione a valle sotto varie epoche di addestramento.
Pagina: https://wm-research.github.io/Dream4Drive/ Link GitHub:
https://github.com/wm-research/Dream4Drive
English
Recent advancements in driving world models enable controllable generation of
high-quality RGB videos or multimodal videos. Existing methods primarily focus
on metrics related to generation quality and controllability. However, they
often overlook the evaluation of downstream perception tasks, which are
really crucial for the performance of autonomous driving. Existing
methods usually leverage a training strategy that first pretrains on synthetic
data and finetunes on real data, resulting in twice the epochs compared to the
baseline (real data only). When we double the epochs in the baseline, the
benefit of synthetic data becomes negligible. To thoroughly demonstrate the
benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data
generation framework designed for enhancing the downstream perception tasks.
Dream4Drive first decomposes the input video into several 3D-aware guidance
maps and subsequently renders the 3D assets onto these guidance maps. Finally,
the driving world model is fine-tuned to produce the edited, multi-view
photorealistic videos, which can be used to train the downstream perception
models. Dream4Drive enables unprecedented flexibility in generating multi-view
corner cases at scale, significantly boosting corner case perception in
autonomous driving. To facilitate future research, we also contribute a
large-scale 3D asset dataset named DriveObj3D, covering the typical categories
in driving scenarios and enabling diverse 3D-aware video editing. We conduct
comprehensive experiments to show that Dream4Drive can effectively boost the
performance of downstream perception models under various training epochs.
Page: https://wm-research.github.io/Dream4Drive/ GitHub Link:
https://github.com/wm-research/Dream4Drive