MMaDA-VLA: Grande Modello di Diffusione Visione-Linguaggio-Azione con Istruzione e Generazione Multi-Modale Unificate
MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation
March 26, 2026
Autori: Yang Liu, Pengxiang Ding, Tengyue Jiang, Xudong Wang, Wenxuan Song, Minghui Lin, Han Zhao, Hongyin Zhang, Zifeng Zhuang, Wei Zhao, Siteng Huang, Jinkui Shi, Donglin Wang
cs.AI
Abstract
I modelli Vision-Language-Action (VLA) mirano a controllare i robot per la manipolazione a partire da osservazioni visive e istruzioni in linguaggio naturale. Tuttavia, i paradigmi gerarchici e autoregressivi esistenti spesso introducono un sovraccarico architetturale, soffrono di incoerenza temporale e accumulo di errori su orizzonti lunghi, e mancano di un meccanismo per catturare le dinamiche ambientali senza moduli aggiuntivi. A tal fine, presentiamo MMaDA-VLA, un modello VLA di grandi dimensioni basato su diffusione, pre-addestrato in modo completamente nativo, che unifica la comprensione e la generazione multimodale in un unico framework. La nostra idea chiave è una formulazione di diffusione discreta nativa che incorpora linguaggio, immagini e controlli robotici continui in un unico spazio di token discreti e addestra un singolo backbone con la denoising di token mascherati per generare congiuntamente e in parallelo un'osservazione obiettivo futura e un blocco di azioni. Il denoising iterativo consente un raffinamento globale e indipendente dall'ordine, migliorando la coerenza su orizzonti lunghi mentre ancorano le azioni a esiti visivi futuri previsti senza modelli del mondo ausiliari. Esperimenti su benchmark di simulazione e compiti nel mondo reale mostrano prestazioni allo stato dell'arte, raggiungendo un successo medio del 98,0% su LIBERO e una lunghezza media di 4,78 su CALVIN.
English
Vision-Language-Action (VLA) models aim to control robots for manipulation from visual observations and natural-language instructions. However, existing hierarchical and autoregressive paradigms often introduce architectural overhead, suffer from temporal inconsistency and long-horizon error accumulation, and lack a mechanism to capture environment dynamics without extra modules. To this end, we present MMaDA-VLA, a fully native pre-trained large diffusion VLA model that unifies multi-modal understanding and generation in a single framework. Our key idea is a native discrete diffusion formulation that embeds language, images, and continuous robot controls into one discrete token space and trains a single backbone with masked token denoising to jointly generate a future goal observation and an action chunk in parallel. Iterative denoising enables global, order-free refinement, improving long-horizon consistency while grounding actions in predicted future visual outcomes without auxiliary world models. Experiments across simulation benchmarks and real-world tasks show state-of-the-art performance, achieving 98.0% average success on LIBERO and 4.78 average length on CALVIN.