ChatPaper.aiChatPaper

Dual-Stream Diffusie voor Wereldmodel-Geaugmenteerde Visie-Taal-Actie-Modellen

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

October 31, 2025
Auteurs: John Won, Kyungmin Lee, Huiwon Jang, Dongyoung Kim, Jinwoo Shin
cs.AI

Samenvatting

Recentelijk heeft de uitbreiding van Vision-Language-Action-modellen (VLA's) met wereldmodellering veelbelovende resultaten getoond voor het verbeteren van robotbeleidsleren. Het blijft echter een uitdaging om gezamenlijk observaties van de volgende staat en actiesequenties te voorspellen vanwege het inherente verschil tussen de twee modaliteiten. Om dit aan te pakken, stellen we DUal-STream diffusion (DUST) voor, een VLA-raamwerk versterkt met een wereldmodel dat de modaliteitsconflicten hanteert en de prestaties van VLA's bij diverse taken verbetert. Concreet stellen we een multimodale diffusie-transformerarchitectuur voor die expliciet gescheiden modaliteitsstromen aanhoudt, maar toch kruismodale kennisdeling mogelijk maakt. Daarnaast introduceren we onafhankelijke ruisperturbaties voor elke modaliteit en een ontkoppeld flow-matching-verlies. Dit ontwerp stelt het model in staat om de gezamenlijke distributie op een bidirectionele manier te leren, zonder dat een uniforme latente ruimte nodig is. Gebaseerd op de ontkoppeling van modaliteiten tijdens de training, introduceren we ook een gezamenlijke bemonsteringsmethode die schaling tijdens de testfase ondersteunt, waarbij actie- en visietokens asynchroon in verschillende tempo's evolueren. Door experimenten op gesimuleerde benchmarks zoals RoboCasa en GR-1 behaalt DUST tot 6% winst ten opzichte van baseline-methoden, terwijl onze testtijd-schalingsaanpak een extra boost van 2-5% biedt. Bij real-world taken met de Franka Research 3 verbetert DUST de slagingspercentages met 13%, wat de effectiviteit ervan buiten simulatie bevestigt. Bovendien levert vooraf trainen op actievrije video's van BridgeV2 aanzienlijke transferwinsten op bij RoboCasa, wat het potentieel van DUST voor grootschalige VLA-pretraining onderstreept.
English
Recently, augmenting Vision-Language-Action models (VLAs) with world modeling has shown promise in improving robotic policy learning. However, it remains challenging to jointly predict next-state observations and action sequences because of the inherent difference between the two modalities. To address this, we propose DUal-STream diffusion (DUST), a world-model augmented VLA framework that handles the modality conflict and enhances the performance of VLAs across diverse tasks. Specifically, we propose a multimodal diffusion transformer architecture that explicitly maintains separate modality streams while still enabling cross-modal knowledge sharing. In addition, we introduce independent noise perturbations for each modality and a decoupled flow-matching loss. This design enables the model to learn the joint distribution in a bidirectional manner while avoiding the need for a unified latent space. Based on the decoupling of modalities during training, we also introduce a joint sampling method that supports test-time scaling, where action and vision tokens evolve asynchronously at different rates. Through experiments on simulated benchmarks such as RoboCasa and GR-1, DUST achieves up to 6% gains over baseline methods, while our test-time scaling approach provides an additional 2-5% boost. On real-world tasks with the Franka Research 3, DUST improves success rates by 13%, confirming its effectiveness beyond simulation. Furthermore, pre-training on action-free videos from BridgeV2 yields significant transfer gains on RoboCasa, underscoring DUST's potential for large-scale VLA pretraining.
PDF81December 2, 2025