ChatPaper.aiChatPaper

MMaDA-VLA: Grande Modelo de Difusão Visão-Linguagem-Ação com Instrução e Geração Multimodal Unificada

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

March 26, 2026
Autores: Yang Liu, Pengxiang Ding, Tengyue Jiang, Xudong Wang, Wenxuan Song, Minghui Lin, Han Zhao, Hongyin Zhang, Zifeng Zhuang, Wei Zhao, Siteng Huang, Jinkui Shi, Donglin Wang
cs.AI

Resumo

Os modelos Visão-Linguagem-Ação (VLA) visam controlar robôs para manipulação a partir de observações visuais e instruções em linguagem natural. No entanto, os paradigmas hierárquicos e autorregressivos existentes frequentemente introduzem sobrecarga arquitetônica, sofrem com inconsistência temporal e acumulação de erros de longo prazo, e carecem de um mecanismo para capturar a dinâmica do ambiente sem módulos extras. Para isso, apresentamos o MMaDA-VLA, um grande modelo VLA de difusão totalmente nativo e pré-treinado que unifica a compreensão e geração multimodal em uma única estrutura. Nossa ideia central é uma formulação de difusão discreta nativa que incorpora linguagem, imagens e controles contínuos de robôs em um único espaço de tokens discretos e treina uma única rede principal com desruído de tokens mascarados para gerar conjuntamente uma observação de objetivo futuro e um bloco de ações em paralelo. A desruído iterativa permite um refinamento global e independente de ordem, melhorando a consistência de longo prazo enquanto ancora as ações em resultados visuais futuros previstos, sem a necessidade de modelos mundiais auxiliares. Experimentos em benchmarks de simulação e tarefas do mundo real mostram desempenho de última geração, atingindo 98,0% de sucesso médio no LIBERO e comprimento médio de 4,78 no CALVIN.
English
Vision-Language-Action (VLA) models aim to control robots for manipulation from visual observations and natural-language instructions. However, existing hierarchical and autoregressive paradigms often introduce architectural overhead, suffer from temporal inconsistency and long-horizon error accumulation, and lack a mechanism to capture environment dynamics without extra modules. To this end, we present MMaDA-VLA, a fully native pre-trained large diffusion VLA model that unifies multi-modal understanding and generation in a single framework. Our key idea is a native discrete diffusion formulation that embeds language, images, and continuous robot controls into one discrete token space and trains a single backbone with masked token denoising to jointly generate a future goal observation and an action chunk in parallel. Iterative denoising enables global, order-free refinement, improving long-horizon consistency while grounding actions in predicted future visual outcomes without auxiliary world models. Experiments across simulation benchmarks and real-world tasks show state-of-the-art performance, achieving 98.0% average success on LIBERO and 4.78 average length on CALVIN.
PDF31April 3, 2026