Diffusion à double flux pour un modèle vision-langue-action augmenté par un modèle du monde

papers.abstract

Récemment, l'augmentation des modèles Vision-Langage-Action (VLA) par la modélisation du monde a montré des résultats prometteurs pour améliorer l'apprentissage de politiques robotiques. Cependant, la prédiction conjointe des observations d'état suivant et des séquences d'actions reste difficile en raison de la différence inhérente entre ces deux modalités. Pour résoudre ce problème, nous proposons DUal-STream diffusion (DUST), un cadre VLA augmenté par un modèle du monde qui gère le conflit de modalités et améliore les performances des VLA sur diverses tâches. Plus précisément, nous proposons une architecture de transformateur à diffusion multimodale qui maintient explicitement des flux de modalités séparés tout en permettant le partage de connaissances inter-modales. De plus, nous introduisons des perturbations de bruit indépendantes pour chaque modalité et une fonction de perte de couplage de flux découplée. Cette conception permet au modèle d'apprendre la distribution conjointe de manière bidirectionnelle tout en évitant la nécessité d'un espace latent unifié. Sur la base du découplage des modalités pendant l'entraînement, nous introduisons également une méthode d'échantillonnage conjoint qui prend en charge la mise à l'échelle au moment du test, où les tokens d'action et de vision évoluent de manière asynchrone à des rythmes différents. À travers des expériences sur des benchmarks de simulation tels que RoboCasa et GR-1, DUST obtient des gains allant jusqu'à 6 % par rapport aux méthodes de référence, tandis que notre approche de mise à l'échelle au moment du test fournit une amélioration supplémentaire de 2 à 5 %. Sur des tâches du monde réel avec le Franka Research 3, DUST améliore les taux de réussite de 13 %, confirmant son efficacité au-delà de la simulation. De plus, le pré-entraînement sur des vidéos sans action de BridgeV2 produit des gains de transfert significatifs sur RoboCasa, soulignant le potentiel de DUST pour le pré-entraînement à grande échelle des VLA.

English

Recently, augmenting Vision-Language-Action models (VLAs) with world modeling has shown promise in improving robotic policy learning. However, it remains challenging to jointly predict next-state observations and action sequences because of the inherent difference between the two modalities. To address this, we propose DUal-STream diffusion (DUST), a world-model augmented VLA framework that handles the modality conflict and enhances the performance of VLAs across diverse tasks. Specifically, we propose a multimodal diffusion transformer architecture that explicitly maintains separate modality streams while still enabling cross-modal knowledge sharing. In addition, we introduce independent noise perturbations for each modality and a decoupled flow-matching loss. This design enables the model to learn the joint distribution in a bidirectional manner while avoiding the need for a unified latent space. Based on the decoupling of modalities during training, we also introduce a joint sampling method that supports test-time scaling, where action and vision tokens evolve asynchronously at different rates. Through experiments on simulated benchmarks such as RoboCasa and GR-1, DUST achieves up to 6% gains over baseline methods, while our test-time scaling approach provides an additional 2-5% boost. On real-world tasks with the Franka Research 3, DUST improves success rates by 13%, confirming its effectiveness beyond simulation. Furthermore, pre-training on action-free videos from BridgeV2 yields significant transfer gains on RoboCasa, underscoring DUST's potential for large-scale VLA pretraining.

Diffusion à double flux pour un modèle vision-langue-action augmenté par un modèle du monde

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

papers.abstract

Support