Repensando o Modelo de Mundo de Condução como Gerador de Dados Sintéticos para Tarefas de Percepção

Resumo

Os recentes avanços em modelos de mundo de condução permitem a geração controlada de vídeos RGB de alta qualidade ou vídeos multimodais. Os métodos existentes concentram-se principalmente em métricas relacionadas com a qualidade da geração e a controlabilidade. No entanto, frequentemente negligenciam a avaliação de tarefas de perceção a jusante, que são realmente cruciais para o desempenho da condução autónoma. Os métodos existentes geralmente utilizam uma estratégia de treino que primeiro pré-treina com dados sintéticos e depois afina com dados reais, resultando no dobro das épocas em comparação com a linha de base (apenas dados reais). Quando duplicamos as épocas na linha de base, o benefício dos dados sintéticos torna-se insignificante. Para demonstrar cabalmente o benefício dos dados sintéticos, introduzimos o Dream4Drive, um novo quadro de geração de dados sintéticos concebido para melhorar as tarefas de perceção a jusante. O Dream4Drive decompõe primeiro o vídeo de entrada em vários mapas de orientação com consciência 3D e, subsequentemente, renderiza os ativos 3D nestes mapas de orientação. Finalmente, o modelo de mundo de condução é afinado para produzir os vídeos editados, fotorealistas e multi-vista, que podem ser usados para treinar os modelos de perceção a jusante. O Dream4Drive permite uma flexibilidade sem precedentes na geração em larga escala de casos de canto multi-vista, aumentando significativamente a perceção de casos de canto na condução autónoma. Para facilitar a investigação futura, contribuímos também com um conjunto de dados de ativos 3D em larga escala denominado DriveObj3D, abrangendo as categorias típicas em cenários de condução e permitindo uma edição de vídeo diversificada com consciência 3D. Realizamos experiências abrangentes para mostrar que o Dream4Drive pode aumentar eficazmente o desempenho dos modelos de perceção a jusante sob várias épocas de treino. Página: https://wm-research.github.io/Dream4Drive/ Link do GitHub: https://github.com/wm-research/Dream4Drive

English

Recent advancements in driving world models enable controllable generation of high-quality RGB videos or multimodal videos. Existing methods primarily focus on metrics related to generation quality and controllability. However, they often overlook the evaluation of downstream perception tasks, which are really crucial for the performance of autonomous driving. Existing methods usually leverage a training strategy that first pretrains on synthetic data and finetunes on real data, resulting in twice the epochs compared to the baseline (real data only). When we double the epochs in the baseline, the benefit of synthetic data becomes negligible. To thoroughly demonstrate the benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data generation framework designed for enhancing the downstream perception tasks. Dream4Drive first decomposes the input video into several 3D-aware guidance maps and subsequently renders the 3D assets onto these guidance maps. Finally, the driving world model is fine-tuned to produce the edited, multi-view photorealistic videos, which can be used to train the downstream perception models. Dream4Drive enables unprecedented flexibility in generating multi-view corner cases at scale, significantly boosting corner case perception in autonomous driving. To facilitate future research, we also contribute a large-scale 3D asset dataset named DriveObj3D, covering the typical categories in driving scenarios and enabling diverse 3D-aware video editing. We conduct comprehensive experiments to show that Dream4Drive can effectively boost the performance of downstream perception models under various training epochs. Page: https://wm-research.github.io/Dream4Drive/ GitHub Link: https://github.com/wm-research/Dream4Drive

Repensando o Modelo de Mundo de Condução como Gerador de Dados Sintéticos para Tarefas de Percepção

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Resumo

Support