Переосмысление модели мира вождения как генератора синтетических данных для задач восприятия

Аннотация

Последние достижения в области моделей вождения позволяют осуществлять контролируемое генерирование высококачественных RGB-видео или мультимодальных видео. Существующие методы в основном сосредоточены на метриках, связанных с качеством генерации и управляемостью. Однако они часто упускают из виду оценку последующих задач восприятия, которые крайне важны для производительности автономного вождения. Существующие методы обычно используют стратегию обучения, которая сначала предусматривает предварительное обучение на синтетических данных, а затем дообучение на реальных данных, что приводит к удвоению количества эпох по сравнению с базовым подходом (только реальные данные). Когда мы удваиваем количество эпох в базовом подходе, преимущество синтетических данных становится незначительным. Чтобы всесторонне продемонстрировать пользу синтетических данных, мы представляем Dream4Drive — новую структуру генерации синтетических данных, предназначенную для улучшения последующих задач восприятия. Dream4Drive сначала декомпозирует входное видео на несколько 3D-карт направляющей информации, а затем рендерит 3D-объекты на эти карты. Наконец, модель мира вождения дообучается для создания отредактированных, фотореалистичных многовидовых видео, которые можно использовать для обучения последующих моделей восприятия. Dream4Drive обеспечивает беспрецедентную гибкость в массовом генерировании многовидовых сложных случаев, значительно повышая восприятие таких случаев в автономном вождении. Для содействия будущим исследованиям мы также представляем крупномасштабный набор данных 3D-объектов под названием DriveObj3D, охватывающий типичные категории в сценариях вождения и позволяющий проводить разнообразное 3D-редактирование видео. Мы проводим комплексные эксперименты, чтобы показать, что Dream4Drive может эффективно повышать производительность последующих моделей восприятия при различном количестве эпох обучения. Страница: https://wm-research.github.io/Dream4Drive/ Ссылка на GitHub: https://github.com/wm-research/Dream4Drive

English

Recent advancements in driving world models enable controllable generation of high-quality RGB videos or multimodal videos. Existing methods primarily focus on metrics related to generation quality and controllability. However, they often overlook the evaluation of downstream perception tasks, which are really crucial for the performance of autonomous driving. Existing methods usually leverage a training strategy that first pretrains on synthetic data and finetunes on real data, resulting in twice the epochs compared to the baseline (real data only). When we double the epochs in the baseline, the benefit of synthetic data becomes negligible. To thoroughly demonstrate the benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data generation framework designed for enhancing the downstream perception tasks. Dream4Drive first decomposes the input video into several 3D-aware guidance maps and subsequently renders the 3D assets onto these guidance maps. Finally, the driving world model is fine-tuned to produce the edited, multi-view photorealistic videos, which can be used to train the downstream perception models. Dream4Drive enables unprecedented flexibility in generating multi-view corner cases at scale, significantly boosting corner case perception in autonomous driving. To facilitate future research, we also contribute a large-scale 3D asset dataset named DriveObj3D, covering the typical categories in driving scenarios and enabling diverse 3D-aware video editing. We conduct comprehensive experiments to show that Dream4Drive can effectively boost the performance of downstream perception models under various training epochs. Page: https://wm-research.github.io/Dream4Drive/ GitHub Link: https://github.com/wm-research/Dream4Drive

Переосмысление модели мира вождения как генератора синтетических данных для задач восприятия

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Аннотация

Support