MMaDA-VLA: Groot Diffusie Visie-Taal-Actie Model met Verenigde Multi-Modale Instructie en Generatie

Samenvatting

Vision-Language-Action (VLA)-modellen hebben als doel robots aan te sturen voor manipulatie op basis van visuele waarnemingen en instructies in natuurlijke taal. Bestaande hiërarchische en autoregressieve paradigma's brengen echter vaak architecturale overhead met zich mee, lijden onder temporele inconsistentie en foutaccumulatie op lange termijn, en missen een mechanisme om omgevingsdynamiek vast te leggen zonder extra modules. Daarom presenteren wij MMaDA-VLA, een volledig native, vooraf getraind groot VLA-diffusiemodel dat multimodaal begrip en generatie verenigt in één enkel raamwerk. Onze kernidee is een native discrete diffusieformulering die taal, beelden en continue robotacties in één discrete tokenruimte inbedt en een enkele backbone traint met gemaskeerde token-denoising om parallel een toekomstige doelwaarneming en een actieblok gezamenlijk te genereren. Iteratieve denoising maakt wereldwijde, volgordevrije verfijning mogelijk, wat de consistentie op lange termijn verbetert terwijl acties worden verankerd in voorspelde toekomstige visuele uitkomsten, zonder hulpwereldmodellen. Experimenten in simulatiebenchmarks en real-world taken tonen state-of-the-art prestaties aan, met een gemiddeld succespercentage van 98,0% op LIBERO en een gemiddelde lengte van 4,78 op CALVIN.

English

Vision-Language-Action (VLA) models aim to control robots for manipulation from visual observations and natural-language instructions. However, existing hierarchical and autoregressive paradigms often introduce architectural overhead, suffer from temporal inconsistency and long-horizon error accumulation, and lack a mechanism to capture environment dynamics without extra modules. To this end, we present MMaDA-VLA, a fully native pre-trained large diffusion VLA model that unifies multi-modal understanding and generation in a single framework. Our key idea is a native discrete diffusion formulation that embeds language, images, and continuous robot controls into one discrete token space and trains a single backbone with masked token denoising to jointly generate a future goal observation and an action chunk in parallel. Iterative denoising enables global, order-free refinement, improving long-horizon consistency while grounding actions in predicted future visual outcomes without auxiliary world models. Experiments across simulation benchmarks and real-world tasks show state-of-the-art performance, achieving 98.0% average success on LIBERO and 4.78 average length on CALVIN.

MMaDA-VLA: Groot Diffusie Visie-Taal-Actie Model met Verenigde Multi-Modale Instructie en Generatie

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

Samenvatting

Support