Diffusione a Doppio Flusso per Modelli Visione-Linguaggio-Azione Potenziati da Modelli del Mondo
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model
October 31, 2025
Autori: John Won, Kyungmin Lee, Huiwon Jang, Dongyoung Kim, Jinwoo Shin
cs.AI
Abstract
Recentemente, l'arricchimento di modelli Visione-Linguaggio-Azione (VLA) con modelli del mondo ha mostrato potenzialità nel migliorare l'apprendimento di politiche robotiche. Tuttavia, predire congiuntamente le osservazioni dello stato successivo e le sequenze di azioni rimane una sfida a causa della differenza intrinseca tra le due modalità. Per affrontare questo problema, proponiamo DUal-STream diffusion (DUST), un framework VLA potenziato da modelli del mondo che gestisce il conflitto tra modalità e migliora le prestazioni dei VLA in compiti diversificati. Nello specifico, proponiamo un'architettura transformer di diffusione multimodale che mantiene esplicitamente flussi separati per ciascuna modalità, pur consentendo la condivisione di conoscenze cross-modale. Inoltre, introduciamo perturbazioni di rumore indipendenti per ogni modalità e una funzione di loss di flow-matching disaccoppiata. Questo design consente al modello di apprendere la distribuzione congiunta in modo bidirezionale evitando la necessità di uno spazio latente unificato. Basandoci sul disaccoppiamento delle modalità durante l'addestramento, introduciamo anche un metodo di campionamento congiunto che supporta lo scaling al tempo di test, dove i token visivi e azionali evolvono in modo asincrono a ritmi diversi. Tramite esperimenti su benchmark simulati come RoboCasa e GR-1, DUST ottiene miglioramenti fino al 6% rispetto ai metodi baseline, mentre il nostro approccio di scaling al test fornisce un ulteriore incremento del 2-5%. Su compiti nel mondo reale con il Franka Research 3, DUST migliora i tassi di successo del 13%, confermandone l'efficacia al di là della simulazione. Inoltre, il pre-addestramento su video privi di azioni da BridgeV2 produce significativi guadagni per transfer learning su RoboCasa, sottolineando il potenziale di DUST per il pre-addestramento su larga scala di VLA.
English
Recently, augmenting Vision-Language-Action models (VLAs) with world modeling
has shown promise in improving robotic policy learning. However, it remains
challenging to jointly predict next-state observations and action sequences
because of the inherent difference between the two modalities. To address this,
we propose DUal-STream diffusion (DUST), a world-model augmented VLA framework
that handles the modality conflict and enhances the performance of VLAs across
diverse tasks. Specifically, we propose a multimodal diffusion transformer
architecture that explicitly maintains separate modality streams while still
enabling cross-modal knowledge sharing. In addition, we introduce independent
noise perturbations for each modality and a decoupled flow-matching loss. This
design enables the model to learn the joint distribution in a bidirectional
manner while avoiding the need for a unified latent space. Based on the
decoupling of modalities during training, we also introduce a joint sampling
method that supports test-time scaling, where action and vision tokens evolve
asynchronously at different rates. Through experiments on simulated benchmarks
such as RoboCasa and GR-1, DUST achieves up to 6% gains over baseline methods,
while our test-time scaling approach provides an additional 2-5% boost. On
real-world tasks with the Franka Research 3, DUST improves success rates by
13%, confirming its effectiveness beyond simulation. Furthermore, pre-training
on action-free videos from BridgeV2 yields significant transfer gains on
RoboCasa, underscoring DUST's potential for large-scale VLA pretraining.