MaskGWM: Ein generalisierbares Fahrweltmodell mit Video-Masken-Rekonstruktion
MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction
February 17, 2025
Autoren: Jingcheng Ni, Yuxin Guo, Yichen Liu, Rui Chen, Lewei Lu, Zehuan Wu
cs.AI
Zusammenfassung
Weltmodelle, die Umweltveränderungen aus Aktionen vorhersagen, sind entscheidend für autonome Fahrzeugmodelle mit starker Generalisierungsfähigkeit. Die vorherrschenden Fahrweltmodelle basieren hauptsächlich auf Videovorhersagemodellen. Obwohl diese Modelle mit fortschrittlichen, diffusionsbasierten Generatoren hochqualitative Videosequenzen erzeugen können, sind sie durch ihre Vorhersagedauer und ihre allgemeinen Generalisierungsfähigkeiten eingeschränkt. In diesem Artikel untersuchen wir, dieses Problem zu lösen, indem wir den Generierungsverlust mit MAE-artigem, featurebasiertem Kontextlernen kombinieren. Insbesondere konkretisieren wir dieses Ziel mit drei Schlüsseldesigns: (1) Eine skalierbarere Diffusion-Transformer (DiT)-Struktur, die mit einer zusätzlichen Maskenkonstruktionsaufgabe trainiert wird. (2) Wir entwickeln diffusionsbezogene Maskentoken, um die unscharfen Beziehungen zwischen Maskenrekonstruktion und generativem Diffusionsprozess zu behandeln. (3) Wir erweitern die Maskenkonstruktionsaufgabe auf den räumlich-zeitlichen Bereich, indem wir zeilenweise Masken für verschobene Selbstaufmerksamkeit anstelle von maskierter Selbstaufmerksamkeit in MAE verwenden. Anschließend passen wir ein zeilenweises Cross-View-Modul an dieses Maskendesign an. Basierend auf diesen Verbesserungen schlagen wir MaskGWM vor: ein generalisierbares Fahrweltmodell, das mit Videomaskenrekonstruktion ausgestattet ist. Unser Modell enthält zwei Varianten: MaskGWM-long, das sich auf langfristige Vorhersagen konzentriert, und MaskGWM-mview, das der multiview-Generierung gewidmet ist. Umfassende Experimente auf Standard-Benchmarks validieren die Effektivität der vorgeschlagenen Methode, die die normale Validierung des Nuscene-Datensatzes, die langfristige Rollout-Analyse des OpenDV-2K-Datensatzes und die Zero-Shot-Validierung des Waymo-Datensatzes umfasst. Quantitative Metriken auf diesen Datensätzen zeigen, dass unsere Methode den Stand der Technik bei Fahrweltmodellen deutlich verbessert.
English
World models that forecast environmental changes from actions are vital for
autonomous driving models with strong generalization. The prevailing driving
world model mainly build on video prediction model. Although these models can
produce high-fidelity video sequences with advanced diffusion-based generator,
they are constrained by their predictive duration and overall generalization
capabilities. In this paper, we explore to solve this problem by combining
generation loss with MAE-style feature-level context learning. In particular,
we instantiate this target with three key design: (1) A more scalable Diffusion
Transformer (DiT) structure trained with extra mask construction task. (2) we
devise diffusion-related mask tokens to deal with the fuzzy relations between
mask reconstruction and generative diffusion process. (3) we extend mask
construction task to spatial-temporal domain by utilizing row-wise mask for
shifted self-attention rather than masked self-attention in MAE. Then, we adopt
a row-wise cross-view module to align with this mask design. Based on above
improvement, we propose MaskGWM: a Generalizable driving World Model embodied
with Video Mask reconstruction. Our model contains two variants: MaskGWM-long,
focusing on long-horizon prediction, and MaskGWM-mview, dedicated to multi-view
generation. Comprehensive experiments on standard benchmarks validate the
effectiveness of the proposed method, which contain normal validation of
Nuscene dataset, long-horizon rollout of OpenDV-2K dataset and zero-shot
validation of Waymo dataset. Quantitative metrics on these datasets show our
method notably improving state-of-the-art driving world model.Summary
AI-Generated Summary