Dual-Stream-Diffusion für weltmodell-erweiterte Vision-Sprache-Handlungs-Modelle
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model
October 31, 2025
papers.authors: John Won, Kyungmin Lee, Huiwon Jang, Dongyoung Kim, Jinwoo Shin
cs.AI
papers.abstract
Kürzlich hat die Erweiterung von Vision-Language-Action-Modellen (VLAs) um Weltmodelle vielversprechende Fortschritte beim Erlernen robotischer Politiken gezeigt. Es bleibt jedoch eine Herausforderung, Beobachtungen des nächsten Zustands und Aktionssequenzen gemeinsam vorherzusagen, bedingt durch den inhärenten Unterschied zwischen den beiden Modalitäten. Um dies zu adressieren, schlagen wir DUal-STream Diffusion (DUST) vor, einen weltmodell-erweiterten VLA-Rahmen, der den Modalitätenkonflikt bewältigt und die Leistung von VLAs in verschiedenen Aufgaben verbessert. Konkret schlagen wir eine multimodale Diffusions-Transformer-Architektur vor, die explizit separate Modalitätsströme beibehält, gleichzeitig aber wissensübergreifenden Austausch ermöglicht. Zusätzlich führen wir unabhängige Rauschstörungen für jede Modalität sowie einen entkoppelten Flow-Matching-Loss ein. Dieser Entwurf ermöglicht es dem Modell, die gemeinsame Verteilung bidirektional zu erlernen, ohne einen einheitlichen latenten Raum zu benötigen. Basierend auf der Entkopplung der Modalitäten während des Trainings führen wir auch eine gemeinsame Sampling-Methode ein, die Skalierung zur Testzeit unterstützt, bei der Aktions- und Vision-Tokens asynchron mit unterschiedlichen Raten evolvieren. In Experimenten mit simulierten Benchmarks wie RoboCasa und GR-1 erzielt DUST bis zu 6 % höhere Werte gegenüber Baseline-Methoden, während unser Skalierungsansatz zur Testzeit eine zusätzliche Steigerung von 2–5 % liefert. Bei realen Aufgaben mit dem Franka Research 3 verbessert DUST die Erfolgsraten um 13 %, was seine Wirksamkeit über Simulationen hinaus bestätigt. Darüber hinaus erzielt Vortraining an aktionsfreien Videos von BridgeV2 signifikante Transfergewinne auf RoboCasa, was das Potenzial von DUST für großskaliges VLA-Vortraining unterstreicht.
English
Recently, augmenting Vision-Language-Action models (VLAs) with world modeling
has shown promise in improving robotic policy learning. However, it remains
challenging to jointly predict next-state observations and action sequences
because of the inherent difference between the two modalities. To address this,
we propose DUal-STream diffusion (DUST), a world-model augmented VLA framework
that handles the modality conflict and enhances the performance of VLAs across
diverse tasks. Specifically, we propose a multimodal diffusion transformer
architecture that explicitly maintains separate modality streams while still
enabling cross-modal knowledge sharing. In addition, we introduce independent
noise perturbations for each modality and a decoupled flow-matching loss. This
design enables the model to learn the joint distribution in a bidirectional
manner while avoiding the need for a unified latent space. Based on the
decoupling of modalities during training, we also introduce a joint sampling
method that supports test-time scaling, where action and vision tokens evolve
asynchronously at different rates. Through experiments on simulated benchmarks
such as RoboCasa and GR-1, DUST achieves up to 6% gains over baseline methods,
while our test-time scaling approach provides an additional 2-5% boost. On
real-world tasks with the Franka Research 3, DUST improves success rates by
13%, confirming its effectiveness beyond simulation. Furthermore, pre-training
on action-free videos from BridgeV2 yields significant transfer gains on
RoboCasa, underscoring DUST's potential for large-scale VLA pretraining.