MMaDA-VLA: Großes Diffusions-Vision-Sprache-Handlung-Modell mit vereinheitlichter multimodaler Instruktionsverarbeitung und -generation

Zusammenfassung

Vision-Language-Action (VLA)-Modelle zielen darauf ab, Roboter für Manipulationsaufgaben anhand visueller Beobachtungen und natürlicher Sprachinstruktionen zu steuern. Bisherige hierarchische und autoregressive Paradigmen führen jedoch oft zu architektonischem Overhead, leiden unter zeitlicher Inkonsistenz und Fehlerakkumulation über lange Zeithorizonte und verfügen über keinen Mechanismus zur Erfassung von Umgebungsdynamiken ohne zusätzliche Module. Daher stellen wir MMaDA-VLA vor, ein vollständig nativ vortrainiertes großes Diffusions-VLA-Modell, das multimodales Verständnis und Generierung in einem einzigen Framework vereint. Unser zentraler Ansatz ist eine native diskrete Diffusionsformulierung, die Sprache, Bilder und kontinuierliche Robotersteuerungen in einen einzigen diskreten Token-Raum einbettet und ein einzelnes Backbone-Netzwerk trainiert, um durch Denoisen maskierter Token parallel eine zukünftige Zielbeobachtung und einen Aktionsabschnitt gemeinsam zu generieren. Iteratives Denoisen ermöglicht eine globale, reihenfolgeunabhängige Verfeinerung, verbessert die Konsistenz über lange Zeithorizonte und verankert Aktionen gleichzeitig in vorhergesagten zukünftigen visuellen Ergebnissen ohne zusätzliche Weltmodelle. Experimente in Simulations-Benchmarks und realen Aufgaben zeigen state-of-the-art Leistung, mit 98,0 % durchschnittlichem Erfolg auf LIBERO und einer durchschnittlichen Länge von 4,78 auf CALVIN.

English

Vision-Language-Action (VLA) models aim to control robots for manipulation from visual observations and natural-language instructions. However, existing hierarchical and autoregressive paradigms often introduce architectural overhead, suffer from temporal inconsistency and long-horizon error accumulation, and lack a mechanism to capture environment dynamics without extra modules. To this end, we present MMaDA-VLA, a fully native pre-trained large diffusion VLA model that unifies multi-modal understanding and generation in a single framework. Our key idea is a native discrete diffusion formulation that embeds language, images, and continuous robot controls into one discrete token space and trains a single backbone with masked token denoising to jointly generate a future goal observation and an action chunk in parallel. Iterative denoising enables global, order-free refinement, improving long-horizon consistency while grounding actions in predicted future visual outcomes without auxiliary world models. Experiments across simulation benchmarks and real-world tasks show state-of-the-art performance, achieving 98.0% average success on LIBERO and 4.78 average length on CALVIN.

MMaDA-VLA: Großes Diffusions-Vision-Sprache-Handlung-Modell mit vereinheitlichter multimodaler Instruktionsverarbeitung und -generation

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

Zusammenfassung

Support