Umdenken beim Fahrweltmodell: Vom Weltmodell zum Synthesedaten-Generator für Wahrnehmungsaufgaben
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
October 22, 2025
papers.authors: Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang
cs.AI
papers.abstract
Aktuelle Fortschritte bei Fahrweltmodellen ermöglichen die kontrollierbare Erzeugung hochwertiger RGB-Videos oder multimodaler Videos. Bestehende Methoden konzentrieren sich primär auf Metriken zur Generierungsqualität und Steuerbarkeit. Dabei vernachlässigen sie jedoch häufig die Bewertung nachgelagerter Wahrnehmungsaufgaben, die für die Leistung autonomer Fahrzeuge entscheidend sind. Herkömmliche Methoden verwenden typischerweise eine Trainingsstrategie, bei der zunächst mit synthetischen Daten vortrainiert und anschließend mit realen Daten feinabgestimmt wird, was im Vergleich zur Baseline (nur reale Daten) zu einer Verdopplung der Epochen führt. Wenn wir die Epochen in der Baseline verdoppeln, wird der Nutzen synthetischer Daten vernachlässigbar. Um den Vorteil synthetischer Daten umfassend zu demonstrieren, stellen wir Dream4Drive vor, ein neuartiges Framework zur Erzeugung synthetischer Daten zur Verbesserung nachgelagerter Wahrnehmungsaufgaben. Dream4Drive zerlegt zunächst das Eingabevideo in mehrere 3D-bewusste Leitkarten und rendert anschließend die 3D-Assets auf diese Leitkarten. Schließlich wird das Fahrweltmodell feinabgestimmt, um die bearbeiteten, multiview photorealistischen Videos zu erzeugen, die zum Training nachgelagerter Wahrnehmungsmodelle verwendet werden können. Dream4Drive ermöglicht eine beispiellose Flexibilität bei der skalierbaren Erzeugung von Multiview-Corner-Cases und verbessert signifikant die Wahrnehmung von Grenzfällen im autonomen Fahren. Um zukünftige Forschung zu unterstützen, stellen wir außerdem den umfangreichen 3D-Asset-Datensatz DriveObj3D bereit, der typische Kategorien in Fahrszenarien abdeckt und vielfältige 3D-bewusste Videobearbeitung ermöglicht. Wir führen umfassende Experimente durch, die zeigen, dass Dream4Drive die Leistung nachgelagerter Wahrnehmungsmodelle unter verschiedenen Trainingsepochs effektiv steigern kann.
Seite: https://wm-research.github.io/Dream4Drive/ GitHub-Link: https://github.com/wm-research/Dream4Drive
English
Recent advancements in driving world models enable controllable generation of
high-quality RGB videos or multimodal videos. Existing methods primarily focus
on metrics related to generation quality and controllability. However, they
often overlook the evaluation of downstream perception tasks, which are
really crucial for the performance of autonomous driving. Existing
methods usually leverage a training strategy that first pretrains on synthetic
data and finetunes on real data, resulting in twice the epochs compared to the
baseline (real data only). When we double the epochs in the baseline, the
benefit of synthetic data becomes negligible. To thoroughly demonstrate the
benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data
generation framework designed for enhancing the downstream perception tasks.
Dream4Drive first decomposes the input video into several 3D-aware guidance
maps and subsequently renders the 3D assets onto these guidance maps. Finally,
the driving world model is fine-tuned to produce the edited, multi-view
photorealistic videos, which can be used to train the downstream perception
models. Dream4Drive enables unprecedented flexibility in generating multi-view
corner cases at scale, significantly boosting corner case perception in
autonomous driving. To facilitate future research, we also contribute a
large-scale 3D asset dataset named DriveObj3D, covering the typical categories
in driving scenarios and enabling diverse 3D-aware video editing. We conduct
comprehensive experiments to show that Dream4Drive can effectively boost the
performance of downstream perception models under various training epochs.
Page: https://wm-research.github.io/Dream4Drive/ GitHub Link:
https://github.com/wm-research/Dream4Drive