Переосмысление модели мира вождения как генератора синтетических данных для задач восприятия
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
October 22, 2025
Авторы: Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang
cs.AI
Аннотация
Последние достижения в области моделей вождения позволяют осуществлять контролируемое генерирование высококачественных RGB-видео или мультимодальных видео. Существующие методы в основном сосредоточены на метриках, связанных с качеством генерации и управляемостью. Однако они часто упускают из виду оценку последующих задач восприятия, которые крайне важны для производительности автономного вождения. Существующие методы обычно используют стратегию обучения, которая сначала предусматривает предварительное обучение на синтетических данных, а затем дообучение на реальных данных, что приводит к удвоению количества эпох по сравнению с базовым подходом (только реальные данные). Когда мы удваиваем количество эпох в базовом подходе, преимущество синтетических данных становится незначительным. Чтобы всесторонне продемонстрировать пользу синтетических данных, мы представляем Dream4Drive — новую структуру генерации синтетических данных, предназначенную для улучшения последующих задач восприятия. Dream4Drive сначала декомпозирует входное видео на несколько 3D-карт направляющей информации, а затем рендерит 3D-объекты на эти карты. Наконец, модель мира вождения дообучается для создания отредактированных, фотореалистичных многовидовых видео, которые можно использовать для обучения последующих моделей восприятия. Dream4Drive обеспечивает беспрецедентную гибкость в массовом генерировании многовидовых сложных случаев, значительно повышая восприятие таких случаев в автономном вождении. Для содействия будущим исследованиям мы также представляем крупномасштабный набор данных 3D-объектов под названием DriveObj3D, охватывающий типичные категории в сценариях вождения и позволяющий проводить разнообразное 3D-редактирование видео. Мы проводим комплексные эксперименты, чтобы показать, что Dream4Drive может эффективно повышать производительность последующих моделей восприятия при различном количестве эпох обучения.
Страница: https://wm-research.github.io/Dream4Drive/
Ссылка на GitHub: https://github.com/wm-research/Dream4Drive
English
Recent advancements in driving world models enable controllable generation of
high-quality RGB videos or multimodal videos. Existing methods primarily focus
on metrics related to generation quality and controllability. However, they
often overlook the evaluation of downstream perception tasks, which are
really crucial for the performance of autonomous driving. Existing
methods usually leverage a training strategy that first pretrains on synthetic
data and finetunes on real data, resulting in twice the epochs compared to the
baseline (real data only). When we double the epochs in the baseline, the
benefit of synthetic data becomes negligible. To thoroughly demonstrate the
benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data
generation framework designed for enhancing the downstream perception tasks.
Dream4Drive first decomposes the input video into several 3D-aware guidance
maps and subsequently renders the 3D assets onto these guidance maps. Finally,
the driving world model is fine-tuned to produce the edited, multi-view
photorealistic videos, which can be used to train the downstream perception
models. Dream4Drive enables unprecedented flexibility in generating multi-view
corner cases at scale, significantly boosting corner case perception in
autonomous driving. To facilitate future research, we also contribute a
large-scale 3D asset dataset named DriveObj3D, covering the typical categories
in driving scenarios and enabling diverse 3D-aware video editing. We conduct
comprehensive experiments to show that Dream4Drive can effectively boost the
performance of downstream perception models under various training epochs.
Page: https://wm-research.github.io/Dream4Drive/ GitHub Link:
https://github.com/wm-research/Dream4Drive