Unified Diffusion VLA: Modelo Visión-Lenguaje-Acción mediante un Proceso de Difusión de Denoización Discreta Conjunta

Resumen

Los modelos visión-lenguaje-acción (VLA) tienen como objetivo comprender instrucciones en lenguaje natural y observaciones visuales para ejecutar las acciones correspondientes como agentes corporizados. Trabajos recientes integran imágenes futuras en el bucle de comprensión-acción, dando lugar a VLAs unificados que comprenden, generan y actúan conjuntamente —leyendo texto e imágenes y produciendo imágenes futuras y acciones. Sin embargo, estos modelos dependen de expertos externos para la unificación de modalidades o tratan la generación de imágenes y la predicción de acciones como procesos separados, limitando los beneficios de la sinergia directa entre estas tareas. Nuestra filosofía central es optimizar la generación y la acción de manera conjunta mediante un proceso de eliminación de ruido sincrónico, donde el refinamiento iterativo permite que las acciones evolucionen desde su inicialización, bajo una guía visual constante y suficiente. Fundamentamos esta filosofía en nuestro modelo VLA de Difusión Unificada y el Proceso de Difusión de Eliminación de Ruido Discreta Conjunta (JD3P), que es un proceso de difusión conjunto que integra múltiples modalidades en una única trayectoria de eliminación de ruido para servir como mecanismo clave que permite que la comprensión, generación y acción sean intrínsecamente sinérgicas. Nuestro modelo y teoría se construyen sobre un espacio tokenizado unificado de todas las modalidades y un mecanismo de atención híbrida. Además, proponemos una pipeline de entrenamiento en dos etapas y varias técnicas en tiempo de inferencia que optimizan el rendimiento y la eficiencia. Nuestro enfoque logra un rendimiento de vanguardia en benchmarks como CALVIN, LIBERO y SimplerEnv con una inferencia 4 veces más rápida que los métodos autoregresivos, y demostramos su efectividad mediante análisis en profundidad y evaluaciones en entornos reales. Nuestra página del proyecto está disponible en https://irpn-eai.github.io/UD-VLA.github.io/.

English

Vision-language-action (VLA) models aim to understand natural language instructions and visual observations and to execute corresponding actions as an embodied agent. Recent work integrates future images into the understanding-acting loop, yielding unified VLAs that jointly understand, generate, and act -- reading text and images and producing future images and actions. However, these models either rely on external experts for modality unification or treat image generation and action prediction as separate processes, limiting the benefits of direct synergy between these tasks. Our core philosophy is to optimize generation and action jointly through a synchronous denoising process, where the iterative refinement enables actions to evolve from initialization, under constant and sufficient visual guidance. We ground this philosophy in our proposed Unified Diffusion VLA and Joint Discrete Denoising Diffusion Process (JD3P), which is a joint diffusion process that integrates multiple modalities into a single denoising trajectory to serve as the key mechanism enabling understanding, generation, and acting to be intrinsically synergistic. Our model and theory are built on a unified tokenized space of all modalities and a hybrid attention mechanism. We further propose a two-stage training pipeline and several inference-time techniques that optimize performance and efficiency. Our approach achieves state-of-the-art performance on benchmarks such as CALVIN, LIBERO, and SimplerEnv with 4times faster inference than autoregressive methods, and we demonstrate its effectiveness through in-depth analysis and real-world evaluations. Our project page is available at https://irpn-eai.github.io/UD-VLA.github.io/.

Unified Diffusion VLA: Modelo Visión-Lenguaje-Acción mediante un Proceso de Difusión de Denoización Discreta Conjunta

Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

Resumen

Support