Unified Diffusion VLA: Vision-Taal-Actie Model via Gezamenlijk Discreet Denoiseringsdiffusieproces
Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
November 3, 2025
Auteurs: Jiayi Chen, Wenxuan Song, Pengxiang Ding, Ziyang Zhou, Han Zhao, Feilong Tang, Donglin Wang, Haoang Li
cs.AI
Samenvatting
Vision-language-action (VLA)-modellen hebben als doel natuurlijke taal-instructies en visuele waarnemingen te begrijpen en als belichaamde agent de bijbehorende acties uit te voeren. Recent werk integreert toekomstige beelden in de begrips-actie-loop, wat leidt tot uniforme VLA's die gezamenlijk begrijpen, genereren en handelen – door tekst en beelden te interpreteren en toekomstige beelden en acties te produceren. Deze modellen vertrouwen echter ofwel op externe experts voor modaliteitsintegratie, of behandelen beeldgeneratie en actievoorspelling als gescheiden processen, wat de voordelen van directe synergie tussen deze taken beperkt. Onze kernfilosofie is om generatie en actie gezamenlijk te optimaliseren via een synchroon denoisingsproces, waarbij de iteratieve verfijning ervoor zorgt dat acties evolueren vanuit een initiële toestand, onder constante en voldoende visuele begeleiding. Wij baseren deze filosofie op onze voorgestelde Unified Diffusion VLA en het Joint Discrete Denoising Diffusion Process (JD3P), een gezamenlijk diffusieproces dat meerdere modaliteiten integreert in een enkele denoising-trajectorie. Dit dient als het belangrijkste mechanisme om begrip, generatie en handeling intrinsiek synergetisch te maken. Ons model en onze theorie zijn gebouwd op een uniforme getokeniseerde ruimte van alle modaliteiten en een hybride aandachtmechanisme. Verder stellen wij een tweefasen-trainingspijplijn en verschillende inferentie-technieken voor die de prestaties en efficiëntie optimaliseren. Onze aanzet behaalt state-of-the-art prestaties op benchmarks zoals CALVIN, LIBERO en SimplerEnv, met een 4 keer snellere inferentie dan autoregressieve methoden, en wij tonen de effectiviteit ervan aan door middel van diepgaande analyse en evaluaties in de echte wereld. Onze projectpagina is beschikbaar op https://irpn-eai.github.io/UD-VLA.github.io/.
English
Vision-language-action (VLA) models aim to understand natural language
instructions and visual observations and to execute corresponding actions as an
embodied agent. Recent work integrates future images into the
understanding-acting loop, yielding unified VLAs that jointly understand,
generate, and act -- reading text and images and producing future images and
actions. However, these models either rely on external experts for modality
unification or treat image generation and action prediction as separate
processes, limiting the benefits of direct synergy between these tasks. Our
core philosophy is to optimize generation and action jointly through a
synchronous denoising process, where the iterative refinement enables actions
to evolve from initialization, under constant and sufficient visual guidance.
We ground this philosophy in our proposed Unified Diffusion VLA and Joint
Discrete Denoising Diffusion Process (JD3P), which is a joint diffusion process
that integrates multiple modalities into a single denoising trajectory to serve
as the key mechanism enabling understanding, generation, and acting to be
intrinsically synergistic. Our model and theory are built on a unified
tokenized space of all modalities and a hybrid attention mechanism. We further
propose a two-stage training pipeline and several inference-time techniques
that optimize performance and efficiency. Our approach achieves
state-of-the-art performance on benchmarks such as CALVIN, LIBERO, and
SimplerEnv with 4times faster inference than autoregressive methods, and we
demonstrate its effectiveness through in-depth analysis and real-world
evaluations. Our project page is available at
https://irpn-eai.github.io/UD-VLA.github.io/.