Difusión de Doble Flujo para Modelos de Visión-Lenguaje-Acción Aumentados con Modelos del Mundo
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model
October 31, 2025
Autores: John Won, Kyungmin Lee, Huiwon Jang, Dongyoung Kim, Jinwoo Shin
cs.AI
Resumen
Recientemente, la mejora de los modelos Visión-Lenguaje-Acción (VLA) mediante modelos del mundo ha mostrado potencial para mejorar el aprendizaje de políticas robóticas. Sin embargo, sigue siendo un desafío predecir conjuntamente las observaciones del siguiente estado y las secuencias de acciones debido a la diferencia inherente entre ambas modalidades. Para abordar esto, proponemos DUal-STream diffusion (DUST), un marco VLA aumentado con modelo del mundo que maneja el conflicto de modalidades y mejora el rendimiento de los VLA en diversas tareas. Específicamente, proponemos una arquitectura de transformador de difusión multimodal que mantiene explícitamente flujos separados por modalidad, permitiendo al mismo tiempo el intercambio de conocimiento cruzado. Además, introducimos perturbaciones de ruido independientes para cada modalidad y una pérdida de correspondencia de flujo desacoplada. Este diseño permite al modelo aprender la distribución conjunta de manera bidireccional evitando la necesidad de un espacio latente unificado. Basándonos en el desacoplamiento de modalidades durante el entrenamiento, también introducimos un método de muestreo conjunto que admite el escalado en tiempo de prueba, donde los tokens de acción y visión evolucionan de forma asíncrona a diferentes ritmos. Mediante experimentos en benchmarks de simulación como RoboCasa y GR-1, DUST logra mejoras de hasta el 6% sobre los métodos base, mientras que nuestro enfoque de escalado en tiempo de prueba proporciona una mejora adicional del 2-5%. En tareas del mundo real con el Franka Research 3, DUST mejora las tasas de éxito en un 13%, confirmando su efectividad más allá de la simulación. Además, el pre-entrenamiento en videos libres de acciones de BridgeV2 produce ganancias de transferencia significativas en RoboCasa, subrayando el potencial de DUST para el pre-entrenamiento de VLA a gran escala.
English
Recently, augmenting Vision-Language-Action models (VLAs) with world modeling
has shown promise in improving robotic policy learning. However, it remains
challenging to jointly predict next-state observations and action sequences
because of the inherent difference between the two modalities. To address this,
we propose DUal-STream diffusion (DUST), a world-model augmented VLA framework
that handles the modality conflict and enhances the performance of VLAs across
diverse tasks. Specifically, we propose a multimodal diffusion transformer
architecture that explicitly maintains separate modality streams while still
enabling cross-modal knowledge sharing. In addition, we introduce independent
noise perturbations for each modality and a decoupled flow-matching loss. This
design enables the model to learn the joint distribution in a bidirectional
manner while avoiding the need for a unified latent space. Based on the
decoupling of modalities during training, we also introduce a joint sampling
method that supports test-time scaling, where action and vision tokens evolve
asynchronously at different rates. Through experiments on simulated benchmarks
such as RoboCasa and GR-1, DUST achieves up to 6% gains over baseline methods,
while our test-time scaling approach provides an additional 2-5% boost. On
real-world tasks with the Franka Research 3, DUST improves success rates by
13%, confirming its effectiveness beyond simulation. Furthermore, pre-training
on action-free videos from BridgeV2 yields significant transfer gains on
RoboCasa, underscoring DUST's potential for large-scale VLA pretraining.