ChatPaper.aiChatPaper

MaskGWM: Een generaliseerbaar rijwereldmodel met videomaskerreconstructie

MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction

February 17, 2025
Auteurs: Jingcheng Ni, Yuxin Guo, Yichen Liu, Rui Chen, Lewei Lu, Zehuan Wu
cs.AI

Samenvatting

Wereldmodellen die omgevingsveranderingen voorspellen op basis van acties zijn cruciaal voor autonome rijsystemen met sterke generalisatie. De heersende rijsimulatiemodellen zijn voornamelijk gebaseerd op videovoorspellingsmodellen. Hoewel deze modellen hoogwaardige videosequenties kunnen genereren met geavanceerde op diffusie gebaseerde generatoren, worden ze beperkt door hun voorspellingsduur en algehele generalisatievermogen. In dit artikel onderzoeken we een oplossing voor dit probleem door het combineren van generatieverlies met MAE-stijl contextleren op featureniveau. Concreet realiseren we dit doel met drie belangrijke ontwerpen: (1) Een schaalbaarder Diffusion Transformer (DiT)-structuur getraind met een extra maskerconstructietaak. (2) We introduceren diffusiegerelateerde maskertokens om de vage relaties tussen maskerreconstructie en het generatieve diffusieproces aan te pakken. (3) We breiden de maskerconstructietaak uit naar het ruimtelijk-temporele domein door rijgewijze maskers te gebruiken voor verschoven zelf-attentie in plaats van gemaskeerde zelf-attentie zoals in MAE. Vervolgens passen we een rijgewijze cross-view module aan om dit maskerontwerp te ondersteunen. Op basis van deze verbeteringen stellen we MaskGWM voor: een generaliseerbaar rijsimulatiemodel geïmplementeerd met videomaskerreconstructie. Ons model bevat twee varianten: MaskGWM-long, gericht op langetermijnvoorspelling, en MaskGWM-mview, toegewijd aan multiview-generatie. Uitgebreide experimenten op standaardbenchmarks valideren de effectiviteit van de voorgestelde methode, waaronder normale validatie van de Nuscene-dataset, langetermijnrollouts van de OpenDV-2K-dataset en zero-shot-validatie van de Waymo-dataset. Kwantitatieve metingen op deze datasets tonen aan dat onze methode de state-of-the-art rijsimulatiemodellen aanzienlijk verbetert.
English
World models that forecast environmental changes from actions are vital for autonomous driving models with strong generalization. The prevailing driving world model mainly build on video prediction model. Although these models can produce high-fidelity video sequences with advanced diffusion-based generator, they are constrained by their predictive duration and overall generalization capabilities. In this paper, we explore to solve this problem by combining generation loss with MAE-style feature-level context learning. In particular, we instantiate this target with three key design: (1) A more scalable Diffusion Transformer (DiT) structure trained with extra mask construction task. (2) we devise diffusion-related mask tokens to deal with the fuzzy relations between mask reconstruction and generative diffusion process. (3) we extend mask construction task to spatial-temporal domain by utilizing row-wise mask for shifted self-attention rather than masked self-attention in MAE. Then, we adopt a row-wise cross-view module to align with this mask design. Based on above improvement, we propose MaskGWM: a Generalizable driving World Model embodied with Video Mask reconstruction. Our model contains two variants: MaskGWM-long, focusing on long-horizon prediction, and MaskGWM-mview, dedicated to multi-view generation. Comprehensive experiments on standard benchmarks validate the effectiveness of the proposed method, which contain normal validation of Nuscene dataset, long-horizon rollout of OpenDV-2K dataset and zero-shot validation of Waymo dataset. Quantitative metrics on these datasets show our method notably improving state-of-the-art driving world model.

Summary

AI-Generated Summary

PDF402February 24, 2025