Repensando o Modelo de Mundo de Condução como Gerador de Dados Sintéticos para Tarefas de Percepção
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
October 22, 2025
Autores: Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang
cs.AI
Resumo
Os recentes avanços em modelos de mundo de condução permitem a geração controlada de vídeos RGB de alta qualidade ou vídeos multimodais. Os métodos existentes concentram-se principalmente em métricas relacionadas com a qualidade da geração e a controlabilidade. No entanto, frequentemente negligenciam a avaliação de tarefas de perceção a jusante, que são realmente cruciais para o desempenho da condução autónoma. Os métodos existentes geralmente utilizam uma estratégia de treino que primeiro pré-treina com dados sintéticos e depois afina com dados reais, resultando no dobro das épocas em comparação com a linha de base (apenas dados reais). Quando duplicamos as épocas na linha de base, o benefício dos dados sintéticos torna-se insignificante. Para demonstrar cabalmente o benefício dos dados sintéticos, introduzimos o Dream4Drive, um novo quadro de geração de dados sintéticos concebido para melhorar as tarefas de perceção a jusante. O Dream4Drive decompõe primeiro o vídeo de entrada em vários mapas de orientação com consciência 3D e, subsequentemente, renderiza os ativos 3D nestes mapas de orientação. Finalmente, o modelo de mundo de condução é afinado para produzir os vídeos editados, fotorealistas e multi-vista, que podem ser usados para treinar os modelos de perceção a jusante. O Dream4Drive permite uma flexibilidade sem precedentes na geração em larga escala de casos de canto multi-vista, aumentando significativamente a perceção de casos de canto na condução autónoma. Para facilitar a investigação futura, contribuímos também com um conjunto de dados de ativos 3D em larga escala denominado DriveObj3D, abrangendo as categorias típicas em cenários de condução e permitindo uma edição de vídeo diversificada com consciência 3D. Realizamos experiências abrangentes para mostrar que o Dream4Drive pode aumentar eficazmente o desempenho dos modelos de perceção a jusante sob várias épocas de treino.
Página: https://wm-research.github.io/Dream4Drive/ Link do GitHub:
https://github.com/wm-research/Dream4Drive
English
Recent advancements in driving world models enable controllable generation of
high-quality RGB videos or multimodal videos. Existing methods primarily focus
on metrics related to generation quality and controllability. However, they
often overlook the evaluation of downstream perception tasks, which are
really crucial for the performance of autonomous driving. Existing
methods usually leverage a training strategy that first pretrains on synthetic
data and finetunes on real data, resulting in twice the epochs compared to the
baseline (real data only). When we double the epochs in the baseline, the
benefit of synthetic data becomes negligible. To thoroughly demonstrate the
benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data
generation framework designed for enhancing the downstream perception tasks.
Dream4Drive first decomposes the input video into several 3D-aware guidance
maps and subsequently renders the 3D assets onto these guidance maps. Finally,
the driving world model is fine-tuned to produce the edited, multi-view
photorealistic videos, which can be used to train the downstream perception
models. Dream4Drive enables unprecedented flexibility in generating multi-view
corner cases at scale, significantly boosting corner case perception in
autonomous driving. To facilitate future research, we also contribute a
large-scale 3D asset dataset named DriveObj3D, covering the typical categories
in driving scenarios and enabling diverse 3D-aware video editing. We conduct
comprehensive experiments to show that Dream4Drive can effectively boost the
performance of downstream perception models under various training epochs.
Page: https://wm-research.github.io/Dream4Drive/ GitHub Link:
https://github.com/wm-research/Dream4Drive