Dual-Stream-Diffusion für weltmodell-erweiterte Vision-Sprache-Handlungs-Modelle

papers.abstract

Kürzlich hat die Erweiterung von Vision-Language-Action-Modellen (VLAs) um Weltmodelle vielversprechende Fortschritte beim Erlernen robotischer Politiken gezeigt. Es bleibt jedoch eine Herausforderung, Beobachtungen des nächsten Zustands und Aktionssequenzen gemeinsam vorherzusagen, bedingt durch den inhärenten Unterschied zwischen den beiden Modalitäten. Um dies zu adressieren, schlagen wir DUal-STream Diffusion (DUST) vor, einen weltmodell-erweiterten VLA-Rahmen, der den Modalitätenkonflikt bewältigt und die Leistung von VLAs in verschiedenen Aufgaben verbessert. Konkret schlagen wir eine multimodale Diffusions-Transformer-Architektur vor, die explizit separate Modalitätsströme beibehält, gleichzeitig aber wissensübergreifenden Austausch ermöglicht. Zusätzlich führen wir unabhängige Rauschstörungen für jede Modalität sowie einen entkoppelten Flow-Matching-Loss ein. Dieser Entwurf ermöglicht es dem Modell, die gemeinsame Verteilung bidirektional zu erlernen, ohne einen einheitlichen latenten Raum zu benötigen. Basierend auf der Entkopplung der Modalitäten während des Trainings führen wir auch eine gemeinsame Sampling-Methode ein, die Skalierung zur Testzeit unterstützt, bei der Aktions- und Vision-Tokens asynchron mit unterschiedlichen Raten evolvieren. In Experimenten mit simulierten Benchmarks wie RoboCasa und GR-1 erzielt DUST bis zu 6 % höhere Werte gegenüber Baseline-Methoden, während unser Skalierungsansatz zur Testzeit eine zusätzliche Steigerung von 2–5 % liefert. Bei realen Aufgaben mit dem Franka Research 3 verbessert DUST die Erfolgsraten um 13 %, was seine Wirksamkeit über Simulationen hinaus bestätigt. Darüber hinaus erzielt Vortraining an aktionsfreien Videos von BridgeV2 signifikante Transfergewinne auf RoboCasa, was das Potenzial von DUST für großskaliges VLA-Vortraining unterstreicht.

English

Recently, augmenting Vision-Language-Action models (VLAs) with world modeling has shown promise in improving robotic policy learning. However, it remains challenging to jointly predict next-state observations and action sequences because of the inherent difference between the two modalities. To address this, we propose DUal-STream diffusion (DUST), a world-model augmented VLA framework that handles the modality conflict and enhances the performance of VLAs across diverse tasks. Specifically, we propose a multimodal diffusion transformer architecture that explicitly maintains separate modality streams while still enabling cross-modal knowledge sharing. In addition, we introduce independent noise perturbations for each modality and a decoupled flow-matching loss. This design enables the model to learn the joint distribution in a bidirectional manner while avoiding the need for a unified latent space. Based on the decoupling of modalities during training, we also introduce a joint sampling method that supports test-time scaling, where action and vision tokens evolve asynchronously at different rates. Through experiments on simulated benchmarks such as RoboCasa and GR-1, DUST achieves up to 6% gains over baseline methods, while our test-time scaling approach provides an additional 2-5% boost. On real-world tasks with the Franka Research 3, DUST improves success rates by 13%, confirming its effectiveness beyond simulation. Furthermore, pre-training on action-free videos from BridgeV2 yields significant transfer gains on RoboCasa, underscoring DUST's potential for large-scale VLA pretraining.

Dual-Stream-Diffusion für weltmodell-erweiterte Vision-Sprache-Handlungs-Modelle

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

papers.abstract

Support