Unified Diffusion VLA: Modelo Visión-Lenguaje-Acción mediante un Proceso de Difusión de Denoización Discreta Conjunta
Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
November 3, 2025
Autores: Jiayi Chen, Wenxuan Song, Pengxiang Ding, Ziyang Zhou, Han Zhao, Feilong Tang, Donglin Wang, Haoang Li
cs.AI
Resumen
Los modelos visión-lenguaje-acción (VLA) tienen como objetivo comprender instrucciones en lenguaje natural y observaciones visuales para ejecutar las acciones correspondientes como agentes corporizados. Trabajos recientes integran imágenes futuras en el bucle de comprensión-acción, dando lugar a VLAs unificados que comprenden, generan y actúan conjuntamente —leyendo texto e imágenes y produciendo imágenes futuras y acciones. Sin embargo, estos modelos dependen de expertos externos para la unificación de modalidades o tratan la generación de imágenes y la predicción de acciones como procesos separados, limitando los beneficios de la sinergia directa entre estas tareas. Nuestra filosofía central es optimizar la generación y la acción de manera conjunta mediante un proceso de eliminación de ruido sincrónico, donde el refinamiento iterativo permite que las acciones evolucionen desde su inicialización, bajo una guía visual constante y suficiente. Fundamentamos esta filosofía en nuestro modelo VLA de Difusión Unificada y el Proceso de Difusión de Eliminación de Ruido Discreta Conjunta (JD3P), que es un proceso de difusión conjunto que integra múltiples modalidades en una única trayectoria de eliminación de ruido para servir como mecanismo clave que permite que la comprensión, generación y acción sean intrínsecamente sinérgicas. Nuestro modelo y teoría se construyen sobre un espacio tokenizado unificado de todas las modalidades y un mecanismo de atención híbrida. Además, proponemos una pipeline de entrenamiento en dos etapas y varias técnicas en tiempo de inferencia que optimizan el rendimiento y la eficiencia. Nuestro enfoque logra un rendimiento de vanguardia en benchmarks como CALVIN, LIBERO y SimplerEnv con una inferencia 4 veces más rápida que los métodos autoregresivos, y demostramos su efectividad mediante análisis en profundidad y evaluaciones en entornos reales. Nuestra página del proyecto está disponible en https://irpn-eai.github.io/UD-VLA.github.io/.
English
Vision-language-action (VLA) models aim to understand natural language
instructions and visual observations and to execute corresponding actions as an
embodied agent. Recent work integrates future images into the
understanding-acting loop, yielding unified VLAs that jointly understand,
generate, and act -- reading text and images and producing future images and
actions. However, these models either rely on external experts for modality
unification or treat image generation and action prediction as separate
processes, limiting the benefits of direct synergy between these tasks. Our
core philosophy is to optimize generation and action jointly through a
synchronous denoising process, where the iterative refinement enables actions
to evolve from initialization, under constant and sufficient visual guidance.
We ground this philosophy in our proposed Unified Diffusion VLA and Joint
Discrete Denoising Diffusion Process (JD3P), which is a joint diffusion process
that integrates multiple modalities into a single denoising trajectory to serve
as the key mechanism enabling understanding, generation, and acting to be
intrinsically synergistic. Our model and theory are built on a unified
tokenized space of all modalities and a hybrid attention mechanism. We further
propose a two-stage training pipeline and several inference-time techniques
that optimize performance and efficiency. Our approach achieves
state-of-the-art performance on benchmarks such as CALVIN, LIBERO, and
SimplerEnv with 4times faster inference than autoregressive methods, and we
demonstrate its effectiveness through in-depth analysis and real-world
evaluations. Our project page is available at
https://irpn-eai.github.io/UD-VLA.github.io/.