Discrete Diffusion VLA: Llevando la Difusión Discreta a la Decodificación de Acciones en Políticas Visión-Lenguaje-Acción
Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
August 27, 2025
Autores: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) adaptan arquitecturas base de visión y lenguaje de gran escala para mapear imágenes e instrucciones a acciones robóticas. Sin embargo, los decodificadores VLA predominantes generan acciones de manera autoregresiva en un orden fijo de izquierda a derecha o incorporan cabezales de difusión continua o de emparejamiento de flujo fuera de la arquitectura base, lo que requiere entrenamiento especializado y muestreo iterativo que dificultan una arquitectura unificada y escalable. Presentamos Discrete Diffusion VLA, una política basada en un único transformador que modela fragmentos de acciones discretizados mediante difusión discreta y se entrena con el mismo objetivo de entropía cruzada que la arquitectura base VLM. Este diseño conserva el paradigma de refinamiento progresivo de la difusión mientras mantiene compatibilidad nativa con la interfaz de tokens discretos de los VLMs. Nuestro método logra un orden de decodificación adaptativo que resuelve elementos de acción más simples antes que los más complejos y utiliza un reenmascaramiento secundario para revisar predicciones inciertas a lo largo de las rondas de refinamiento, lo que mejora la consistencia y permite una corrección robusta de errores. Este decodificador unificado preserva los conocimientos previos de visión y lenguaje preentrenados, admite decodificación paralela, elimina el cuello de botella autoregresivo y reduce el número de evaluaciones de funciones. Discrete Diffusion VLA alcanza un 96.3% de tasa de éxito promedio en LIBERO, un 71.2% de coincidencia visual en SimplerEnv Fractal y un 49.3% general en SimplerEnv Bridge, superando tanto a los enfoques autoregresivos como a los basados en difusión continua. Estos resultados indican que el decodificador de acciones basado en difusión discreta permite un modelado preciso de acciones y un entrenamiento consistente, sentando las bases para escalar los VLA a modelos y conjuntos de datos más grandes.
English
Vision-Language-Action (VLA) models adapt large vision-language backbones to
map images and instructions to robot actions. However, prevailing VLA decoders
either generate actions autoregressively in a fixed left-to-right order or
attach continuous diffusion or flow matching heads outside the backbone,
demanding specialized training and iterative sampling that hinder a unified,
scalable architecture. We present Discrete Diffusion VLA, a single-transformer
policy that models discretized action chunks with discrete diffusion and is
trained with the same cross-entropy objective as the VLM backbone. The design
retains diffusion's progressive refinement paradigm while remaining natively
compatible with the discrete token interface of VLMs. Our method achieves an
adaptive decoding order that resolves easy action elements before harder ones
and uses secondary remasking to revisit uncertain predictions across refinement
rounds, which improves consistency and enables robust error correction. This
unified decoder preserves pretrained vision language priors, supports parallel
decoding, breaks the autoregressive bottleneck, and reduces the number of
function evaluations. Discrete Diffusion VLA achieves 96.3% avg. SR on LIBERO,
71.2% visual matching on SimplerEnv Fractal and 49.3% overall on SimplerEnv
Bridge, improving over both autoregressive and continuous diffusion baselines.
These findings indicate that discrete-diffusion action decoder supports precise
action modeling and consistent training, laying groundwork for scaling VLA to
larger models and datasets.