Discrete Diffusion VLA: Integrare la Diffusione Discreta nella Decodifica delle Azioni nelle Politiche Visione-Linguaggio-Azione
Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
August 27, 2025
Autori: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo
cs.AI
Abstract
I modelli Vision-Language-Action (VLA) adattano grandi architetture di base visione-linguaggio per mappare immagini e istruzioni in azioni robotiche. Tuttavia, i decoder VLA prevalenti generano azioni in modo autoregressivo in un ordine fisso da sinistra a destra o aggiungono teste di diffusione continua o flow matching esterne all'architettura di base, richiedendo un addestramento specializzato e un campionamento iterativo che ostacolano un'architettura unificata e scalabile. Presentiamo Discrete Diffusion VLA, una policy a singolo trasformatore che modella porzioni di azioni discretizzate con diffusione discreta ed è addestrata con lo stesso obiettivo di entropia incrociata dell'architettura di base VLM. Il design mantiene il paradigma di raffinamento progressivo della diffusione rimanendo nativamente compatibile con l'interfaccia di token discreti dei VLM. Il nostro metodo raggiunge un ordine di decodifica adattivo che risolve prima gli elementi di azione più semplici e poi quelli più complessi, utilizzando il remasking secondario per rivisitare previsioni incerte attraverso i round di raffinamento, migliorando la coerenza e consentendo una robusta correzione degli errori. Questo decoder unificato preserva i prior pre-addestrati di visione e linguaggio, supporta la decodifica parallela, supera il collo di bottiglia autoregressivo e riduce il numero di valutazioni di funzione. Discrete Diffusion VLA raggiunge il 96,3% di SR medio su LIBERO, il 71,2% di corrispondenza visiva su SimplerEnv Fractal e il 49,3% complessivo su SimplerEnv Bridge, migliorando rispetto alle baseline sia autoregressive che di diffusione continua. Questi risultati indicano che il decoder di azioni a diffusione discreta supporta una modellazione precisa delle azioni e un addestramento coerente, gettando le basi per scalare i VLA a modelli e dataset più grandi.
English
Vision-Language-Action (VLA) models adapt large vision-language backbones to
map images and instructions to robot actions. However, prevailing VLA decoders
either generate actions autoregressively in a fixed left-to-right order or
attach continuous diffusion or flow matching heads outside the backbone,
demanding specialized training and iterative sampling that hinder a unified,
scalable architecture. We present Discrete Diffusion VLA, a single-transformer
policy that models discretized action chunks with discrete diffusion and is
trained with the same cross-entropy objective as the VLM backbone. The design
retains diffusion's progressive refinement paradigm while remaining natively
compatible with the discrete token interface of VLMs. Our method achieves an
adaptive decoding order that resolves easy action elements before harder ones
and uses secondary remasking to revisit uncertain predictions across refinement
rounds, which improves consistency and enables robust error correction. This
unified decoder preserves pretrained vision language priors, supports parallel
decoding, breaks the autoregressive bottleneck, and reduces the number of
function evaluations. Discrete Diffusion VLA achieves 96.3% avg. SR on LIBERO,
71.2% visual matching on SimplerEnv Fractal and 49.3% overall on SimplerEnv
Bridge, improving over both autoregressive and continuous diffusion baselines.
These findings indicate that discrete-diffusion action decoder supports precise
action modeling and consistent training, laying groundwork for scaling VLA to
larger models and datasets.