ChatPaper.aiChatPaper

MMaDA-VLA: Gran Modelo de Difusión Visión-Lenguaje-Acción con Instrucción y Generación Multimodal Unificada

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

March 26, 2026
Autores: Yang Liu, Pengxiang Ding, Tengyue Jiang, Xudong Wang, Wenxuan Song, Minghui Lin, Han Zhao, Hongyin Zhang, Zifeng Zhuang, Wei Zhao, Siteng Huang, Jinkui Shi, Donglin Wang
cs.AI

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) tienen como objetivo controlar robots para realizar manipulaciones a partir de observaciones visuales e instrucciones en lenguaje natural. Sin embargo, los paradigmas jerárquicos y autorregresivos existentes a menudo introducen una sobrecarga arquitectónica, sufren de inconsistencia temporal y acumulación de errores en horizontes largos, y carecen de un mecanismo para capturar la dinámica del entorno sin módulos adicionales. Para ello, presentamos MMaDA-VLA, un gran modelo VLA basado en difusión, preentrenado de forma completamente nativa, que unifica la comprensión y generación multimodal en un único marco. Nuestra idea clave es una formulación de difusión discreta nativa que integra lenguaje, imágenes y controles continuos de robots en un único espacio de tokens discretos, y entrena una única red principal con desenmascaramiento de tokens para generar conjuntamente, y en paralelo, una observación de objetivo futuro y un fragmento de acción. El desenmascaramiento iterativo permite un refinamiento global y sin orden, mejorando la coherencia en horizontes largos mientras fundamenta las acciones en resultados visuales futuros predichos, sin necesidad de modelos del mundo auxiliares. Los experimentos en benchmarks de simulación y tareas del mundo real muestran un rendimiento de vanguardia, logrando un 98.0% de éxito promedio en LIBERO y una longitud promedio de 4.78 en CALVIN.
English
Vision-Language-Action (VLA) models aim to control robots for manipulation from visual observations and natural-language instructions. However, existing hierarchical and autoregressive paradigms often introduce architectural overhead, suffer from temporal inconsistency and long-horizon error accumulation, and lack a mechanism to capture environment dynamics without extra modules. To this end, we present MMaDA-VLA, a fully native pre-trained large diffusion VLA model that unifies multi-modal understanding and generation in a single framework. Our key idea is a native discrete diffusion formulation that embeds language, images, and continuous robot controls into one discrete token space and trains a single backbone with masked token denoising to jointly generate a future goal observation and an action chunk in parallel. Iterative denoising enables global, order-free refinement, improving long-horizon consistency while grounding actions in predicted future visual outcomes without auxiliary world models. Experiments across simulation benchmarks and real-world tasks show state-of-the-art performance, achieving 98.0% average success on LIBERO and 4.78 average length on CALVIN.
PDF31April 3, 2026