Dual-Stream Diffusie voor Wereldmodel-Geaugmenteerde Visie-Taal-Actie-Modellen
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model
October 31, 2025
Auteurs: John Won, Kyungmin Lee, Huiwon Jang, Dongyoung Kim, Jinwoo Shin
cs.AI
Samenvatting
Recentelijk heeft de uitbreiding van Vision-Language-Action-modellen (VLA's) met wereldmodellering veelbelovende resultaten getoond voor het verbeteren van robotbeleidsleren. Het blijft echter een uitdaging om gezamenlijk observaties van de volgende staat en actiesequenties te voorspellen vanwege het inherente verschil tussen de twee modaliteiten. Om dit aan te pakken, stellen we DUal-STream diffusion (DUST) voor, een VLA-raamwerk versterkt met een wereldmodel dat de modaliteitsconflicten hanteert en de prestaties van VLA's bij diverse taken verbetert. Concreet stellen we een multimodale diffusie-transformerarchitectuur voor die expliciet gescheiden modaliteitsstromen aanhoudt, maar toch kruismodale kennisdeling mogelijk maakt. Daarnaast introduceren we onafhankelijke ruisperturbaties voor elke modaliteit en een ontkoppeld flow-matching-verlies. Dit ontwerp stelt het model in staat om de gezamenlijke distributie op een bidirectionele manier te leren, zonder dat een uniforme latente ruimte nodig is. Gebaseerd op de ontkoppeling van modaliteiten tijdens de training, introduceren we ook een gezamenlijke bemonsteringsmethode die schaling tijdens de testfase ondersteunt, waarbij actie- en visietokens asynchroon in verschillende tempo's evolueren. Door experimenten op gesimuleerde benchmarks zoals RoboCasa en GR-1 behaalt DUST tot 6% winst ten opzichte van baseline-methoden, terwijl onze testtijd-schalingsaanpak een extra boost van 2-5% biedt. Bij real-world taken met de Franka Research 3 verbetert DUST de slagingspercentages met 13%, wat de effectiviteit ervan buiten simulatie bevestigt. Bovendien levert vooraf trainen op actievrije video's van BridgeV2 aanzienlijke transferwinsten op bij RoboCasa, wat het potentieel van DUST voor grootschalige VLA-pretraining onderstreept.
English
Recently, augmenting Vision-Language-Action models (VLAs) with world modeling
has shown promise in improving robotic policy learning. However, it remains
challenging to jointly predict next-state observations and action sequences
because of the inherent difference between the two modalities. To address this,
we propose DUal-STream diffusion (DUST), a world-model augmented VLA framework
that handles the modality conflict and enhances the performance of VLAs across
diverse tasks. Specifically, we propose a multimodal diffusion transformer
architecture that explicitly maintains separate modality streams while still
enabling cross-modal knowledge sharing. In addition, we introduce independent
noise perturbations for each modality and a decoupled flow-matching loss. This
design enables the model to learn the joint distribution in a bidirectional
manner while avoiding the need for a unified latent space. Based on the
decoupling of modalities during training, we also introduce a joint sampling
method that supports test-time scaling, where action and vision tokens evolve
asynchronously at different rates. Through experiments on simulated benchmarks
such as RoboCasa and GR-1, DUST achieves up to 6% gains over baseline methods,
while our test-time scaling approach provides an additional 2-5% boost. On
real-world tasks with the Franka Research 3, DUST improves success rates by
13%, confirming its effectiveness beyond simulation. Furthermore, pre-training
on action-free videos from BridgeV2 yields significant transfer gains on
RoboCasa, underscoring DUST's potential for large-scale VLA pretraining.