MMaDA-VLA: Gran Modelo de Difusión Visión-Lenguaje-Acción con Instrucción y Generación Multimodal Unificada

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) tienen como objetivo controlar robots para realizar manipulaciones a partir de observaciones visuales e instrucciones en lenguaje natural. Sin embargo, los paradigmas jerárquicos y autorregresivos existentes a menudo introducen una sobrecarga arquitectónica, sufren de inconsistencia temporal y acumulación de errores en horizontes largos, y carecen de un mecanismo para capturar la dinámica del entorno sin módulos adicionales. Para ello, presentamos MMaDA-VLA, un gran modelo VLA basado en difusión, preentrenado de forma completamente nativa, que unifica la comprensión y generación multimodal en un único marco. Nuestra idea clave es una formulación de difusión discreta nativa que integra lenguaje, imágenes y controles continuos de robots en un único espacio de tokens discretos, y entrena una única red principal con desenmascaramiento de tokens para generar conjuntamente, y en paralelo, una observación de objetivo futuro y un fragmento de acción. El desenmascaramiento iterativo permite un refinamiento global y sin orden, mejorando la coherencia en horizontes largos mientras fundamenta las acciones en resultados visuales futuros predichos, sin necesidad de modelos del mundo auxiliares. Los experimentos en benchmarks de simulación y tareas del mundo real muestran un rendimiento de vanguardia, logrando un 98.0% de éxito promedio en LIBERO y una longitud promedio de 4.78 en CALVIN.

English

Vision-Language-Action (VLA) models aim to control robots for manipulation from visual observations and natural-language instructions. However, existing hierarchical and autoregressive paradigms often introduce architectural overhead, suffer from temporal inconsistency and long-horizon error accumulation, and lack a mechanism to capture environment dynamics without extra modules. To this end, we present MMaDA-VLA, a fully native pre-trained large diffusion VLA model that unifies multi-modal understanding and generation in a single framework. Our key idea is a native discrete diffusion formulation that embeds language, images, and continuous robot controls into one discrete token space and trains a single backbone with masked token denoising to jointly generate a future goal observation and an action chunk in parallel. Iterative denoising enables global, order-free refinement, improving long-horizon consistency while grounding actions in predicted future visual outcomes without auxiliary world models. Experiments across simulation benchmarks and real-world tasks show state-of-the-art performance, achieving 98.0% average success on LIBERO and 4.78 average length on CALVIN.

MMaDA-VLA: Gran Modelo de Difusión Visión-Lenguaje-Acción con Instrucción y Generación Multimodal Unificada

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

Resumen

Support