MMaDA-VLA : Grand modèle de diffusion vision-langage-action avec instruction et génération multimodales unifiées

Résumé

Les modèles Vision-Langage-Action (VLA) visent à contrôler des robots pour la manipulation à partir d'observations visuelles et d'instructions en langage naturel. Cependant, les paradigmes hiérarchiques et autorégressifs existants introduisent souvent une surcharge architecturale, souffrent d'incohérence temporelle et d'accumulation d'erreurs sur les longues séquences, et manquent d'un mécanisme pour capturer la dynamique de l'environnement sans modules supplémentaires. Pour pallier cela, nous présentons MMaDA-VLA, un grand modèle VLA à diffusion natif et pré-entraîné qui unifie la compréhension et la génération multimodales dans un cadre unique. Notre idée clé est une formulation de diffusion discrète native qui intègre le langage, les images et les commandes robotiques continues dans un espace de tokens discret unique, et qui entraîne un seul réseau principal par débruitage de tokens masqués pour générer conjointement et en parallèle une observation d'objectif futur et un segment d'action. Le débruitage itératif permet un raffinement global et indépendant de l'ordre, améliorant la cohérence sur les longues séquences tout en ancrant les actions dans des résultats visuels futurs prédits, sans modèles du monde auxiliaires. Les expériences sur des benchmarks de simulation et des tâches en monde réel démontrent des performances à l'état de l'art, atteignant un taux de succès moyen de 98,0 % sur LIBERO et une longueur moyenne de 4,78 sur CALVIN.

English

Vision-Language-Action (VLA) models aim to control robots for manipulation from visual observations and natural-language instructions. However, existing hierarchical and autoregressive paradigms often introduce architectural overhead, suffer from temporal inconsistency and long-horizon error accumulation, and lack a mechanism to capture environment dynamics without extra modules. To this end, we present MMaDA-VLA, a fully native pre-trained large diffusion VLA model that unifies multi-modal understanding and generation in a single framework. Our key idea is a native discrete diffusion formulation that embeds language, images, and continuous robot controls into one discrete token space and trains a single backbone with masked token denoising to jointly generate a future goal observation and an action chunk in parallel. Iterative denoising enables global, order-free refinement, improving long-horizon consistency while grounding actions in predicted future visual outcomes without auxiliary world models. Experiments across simulation benchmarks and real-world tasks show state-of-the-art performance, achieving 98.0% average success on LIBERO and 4.78 average length on CALVIN.

MMaDA-VLA : Grand modèle de diffusion vision-langage-action avec instruction et génération multimodales unifiées

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

Résumé

Support