ChatPaper.aiChatPaper

Replanteamiento del Modelo de Mundo de Conducción como Generador de Datos Sintéticos para Tareas de Percepción

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

October 22, 2025
Autores: Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang
cs.AI

Resumen

Los recientes avances en modelos del mundo de conducción permiten la generación controlable de videos RGB de alta calidad o videos multimodales. Los métodos existentes se centran principalmente en métricas relacionadas con la calidad de generación y la controlabilidad. Sin embargo, a menudo pasan por alto la evaluación de las tareas de percepción descendentes, las cuales son realmente cruciales para el rendimiento de la conducción autónoma. Los métodos existentes suelen utilizar una estrategia de entrenamiento que primero realiza un preentrenamiento con datos sintéticos y luego un ajuste fino con datos reales, lo que resulta en el doble de épocas en comparación con el baseline (solo datos reales). Cuando duplicamos las épocas en el baseline, el beneficio de los datos sintéticos se vuelve insignificante. Para demostrar exhaustivamente el beneficio de los datos sintéticos, presentamos Dream4Drive, un novedoso marco de generación de datos sintéticos diseñado para mejorar las tareas de percepción descendentes. Dream4Drive primero descompone el video de entrada en varios mapas de guía 3D y posteriormente renderiza los activos 3D sobre estos mapas de guía. Finalmente, el modelo del mundo de conducción se ajusta para producir los videos editados, fotorealistas y multi-vista, que pueden utilizarse para entrenar los modelos de percepción descendentes. Dream4Drive permite una flexibilidad sin precedentes para generar casos extremos multi-vista a gran escala, mejorando significativamente la percepción de casos extremos en la conducción autónoma. Para facilitar la investigación futura, también contribuimos con un conjunto de datos de activos 3D a gran escala llamado DriveObj3D, que cubre las categorías típicas en escenarios de conducción y permite una edición de video diversa con conciencia 3D. Realizamos experimentos exhaustivos que muestran que Dream4Drive puede mejorar efectivamente el rendimiento de los modelos de percepción descendentes bajo varias épocas de entrenamiento. Página: https://wm-research.github.io/Dream4Drive/ Enlace de GitHub: https://github.com/wm-research/Dream4Drive
English
Recent advancements in driving world models enable controllable generation of high-quality RGB videos or multimodal videos. Existing methods primarily focus on metrics related to generation quality and controllability. However, they often overlook the evaluation of downstream perception tasks, which are really crucial for the performance of autonomous driving. Existing methods usually leverage a training strategy that first pretrains on synthetic data and finetunes on real data, resulting in twice the epochs compared to the baseline (real data only). When we double the epochs in the baseline, the benefit of synthetic data becomes negligible. To thoroughly demonstrate the benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data generation framework designed for enhancing the downstream perception tasks. Dream4Drive first decomposes the input video into several 3D-aware guidance maps and subsequently renders the 3D assets onto these guidance maps. Finally, the driving world model is fine-tuned to produce the edited, multi-view photorealistic videos, which can be used to train the downstream perception models. Dream4Drive enables unprecedented flexibility in generating multi-view corner cases at scale, significantly boosting corner case perception in autonomous driving. To facilitate future research, we also contribute a large-scale 3D asset dataset named DriveObj3D, covering the typical categories in driving scenarios and enabling diverse 3D-aware video editing. We conduct comprehensive experiments to show that Dream4Drive can effectively boost the performance of downstream perception models under various training epochs. Page: https://wm-research.github.io/Dream4Drive/ GitHub Link: https://github.com/wm-research/Dream4Drive
PDF101December 2, 2025