Repenser le modèle du monde de la conduite comme générateur de données synthétiques pour les tâches de perception
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
October 22, 2025
papers.authors: Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang
cs.AI
papers.abstract
Les récents progrès dans les modèles de monde de conduite permettent la génération contrôlée de vidéos RVB ou multimodales de haute qualité. Les méthodes existantes se concentrent principalement sur les métriques liées à la qualité de génération et à la contrôlabilité. Cependant, elles négligent souvent l'évaluation des tâches de perception en aval, pourtant cruciales pour les performances de la conduite autonome. Les approches actuelles utilisent généralement une stratégie d'entraînement qui pré-entraîne d'abord sur des données synthétiques avant d'affiner sur des données réelles, ce qui double le nombre d'époques par rapport à la ligne de base (données réelles uniquement). Lorsque nous doublons les époques dans la ligne de base, le bénéfice des données synthétiques devient négligeable. Pour démontrer pleinement l'avantage des données synthétiques, nous présentons Dream4Drive, un nouveau cadre de génération de données synthétiques conçu pour améliorer les tâches de perception en aval. Dream4Drive décompose d'abord la vidéo d'entrée en plusieurs cartes de guidage 3D, puis rend les assets 3D sur ces cartes. Enfin, le modèle de monde de conduite est affiné pour produire des vidéos photoréalistes éditées et multi-vues, utilisables pour entraîner les modèles de perception en aval. Dream4Drive offre une flexibilité inédite pour générer à grande échelle des cas limites multi-vues, améliorant significativement la perception des situations critiques en conduite autonome. Pour favoriser les recherches futures, nous mettons également à disposition un jeu de données d'assets 3D à grande échelle nommé DriveObj3D, couvrant les catégories typiques des scénarios de conduite et permettant divers edits vidéo conscients de la 3D. Nous menons des expérimentations complètes montrant que Dream4Drive peut efficacement booster les performances des modèles de perception en aval sous différents régimes d'époques d'entraînement.
English
Recent advancements in driving world models enable controllable generation of
high-quality RGB videos or multimodal videos. Existing methods primarily focus
on metrics related to generation quality and controllability. However, they
often overlook the evaluation of downstream perception tasks, which are
really crucial for the performance of autonomous driving. Existing
methods usually leverage a training strategy that first pretrains on synthetic
data and finetunes on real data, resulting in twice the epochs compared to the
baseline (real data only). When we double the epochs in the baseline, the
benefit of synthetic data becomes negligible. To thoroughly demonstrate the
benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data
generation framework designed for enhancing the downstream perception tasks.
Dream4Drive first decomposes the input video into several 3D-aware guidance
maps and subsequently renders the 3D assets onto these guidance maps. Finally,
the driving world model is fine-tuned to produce the edited, multi-view
photorealistic videos, which can be used to train the downstream perception
models. Dream4Drive enables unprecedented flexibility in generating multi-view
corner cases at scale, significantly boosting corner case perception in
autonomous driving. To facilitate future research, we also contribute a
large-scale 3D asset dataset named DriveObj3D, covering the typical categories
in driving scenarios and enabling diverse 3D-aware video editing. We conduct
comprehensive experiments to show that Dream4Drive can effectively boost the
performance of downstream perception models under various training epochs.
Page: https://wm-research.github.io/Dream4Drive/ GitHub Link:
https://github.com/wm-research/Dream4Drive