Diffusion à double flux pour un modèle vision-langue-action augmenté par un modèle du monde
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model
October 31, 2025
papers.authors: John Won, Kyungmin Lee, Huiwon Jang, Dongyoung Kim, Jinwoo Shin
cs.AI
papers.abstract
Récemment, l'augmentation des modèles Vision-Langage-Action (VLA) par la modélisation du monde a montré des résultats prometteurs pour améliorer l'apprentissage de politiques robotiques. Cependant, la prédiction conjointe des observations d'état suivant et des séquences d'actions reste difficile en raison de la différence inhérente entre ces deux modalités. Pour résoudre ce problème, nous proposons DUal-STream diffusion (DUST), un cadre VLA augmenté par un modèle du monde qui gère le conflit de modalités et améliore les performances des VLA sur diverses tâches. Plus précisément, nous proposons une architecture de transformateur à diffusion multimodale qui maintient explicitement des flux de modalités séparés tout en permettant le partage de connaissances inter-modales. De plus, nous introduisons des perturbations de bruit indépendantes pour chaque modalité et une fonction de perte de couplage de flux découplée. Cette conception permet au modèle d'apprendre la distribution conjointe de manière bidirectionnelle tout en évitant la nécessité d'un espace latent unifié. Sur la base du découplage des modalités pendant l'entraînement, nous introduisons également une méthode d'échantillonnage conjoint qui prend en charge la mise à l'échelle au moment du test, où les tokens d'action et de vision évoluent de manière asynchrone à des rythmes différents. À travers des expériences sur des benchmarks de simulation tels que RoboCasa et GR-1, DUST obtient des gains allant jusqu'à 6 % par rapport aux méthodes de référence, tandis que notre approche de mise à l'échelle au moment du test fournit une amélioration supplémentaire de 2 à 5 %. Sur des tâches du monde réel avec le Franka Research 3, DUST améliore les taux de réussite de 13 %, confirmant son efficacité au-delà de la simulation. De plus, le pré-entraînement sur des vidéos sans action de BridgeV2 produit des gains de transfert significatifs sur RoboCasa, soulignant le potentiel de DUST pour le pré-entraînement à grande échelle des VLA.
English
Recently, augmenting Vision-Language-Action models (VLAs) with world modeling
has shown promise in improving robotic policy learning. However, it remains
challenging to jointly predict next-state observations and action sequences
because of the inherent difference between the two modalities. To address this,
we propose DUal-STream diffusion (DUST), a world-model augmented VLA framework
that handles the modality conflict and enhances the performance of VLAs across
diverse tasks. Specifically, we propose a multimodal diffusion transformer
architecture that explicitly maintains separate modality streams while still
enabling cross-modal knowledge sharing. In addition, we introduce independent
noise perturbations for each modality and a decoupled flow-matching loss. This
design enables the model to learn the joint distribution in a bidirectional
manner while avoiding the need for a unified latent space. Based on the
decoupling of modalities during training, we also introduce a joint sampling
method that supports test-time scaling, where action and vision tokens evolve
asynchronously at different rates. Through experiments on simulated benchmarks
such as RoboCasa and GR-1, DUST achieves up to 6% gains over baseline methods,
while our test-time scaling approach provides an additional 2-5% boost. On
real-world tasks with the Franka Research 3, DUST improves success rates by
13%, confirming its effectiveness beyond simulation. Furthermore, pre-training
on action-free videos from BridgeV2 yields significant transfer gains on
RoboCasa, underscoring DUST's potential for large-scale VLA pretraining.