Discrete Diffusion VLA: Discrete Diffusie Toepassen op Actiedecodering in Visie-Taal-Actie Beleidsmodellen
Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
August 27, 2025
Auteurs: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo
cs.AI
Samenvatting
Vision-Language-Action (VLA)-modellen passen grote vision-language-backbones aan om afbeeldingen en instructies te vertalen naar robotacties. Echter, heersende VLA-decoders genereren acties ofwel autoregressief in een vaste links-naar-rechts volgorde, of voegen continue diffusie- of flow matching-heads toe buiten de backbone, wat gespecialiseerde training en iteratieve sampling vereist die een uniforme, schaalbare architectuur belemmeren. Wij presenteren Discrete Diffusion VLA, een single-transformer-beleid dat gediscretiseerde actiebrokken modelleert met discrete diffusie en wordt getraind met hetzelfde kruisentropiedoel als de VLM-backbone. Het ontwerp behoudt het paradigma van progressieve verfijning van diffusie terwijl het natieve compatibiliteit behoudt met de discrete token-interface van VLM's. Onze methode bereikt een adaptieve decodeervolgorde die eenvoudige actie-elementen oplost voordat moeilijkere worden aangepakt en gebruikt secundaire remasking om onzekere voorspellingen te herzien over verfijningsrondes, wat consistentie verbetert en robuuste foutcorrectie mogelijk maakt. Deze uniforme decoder behoudt voorgetrainde vision-language-priors, ondersteunt parallel decoderen, doorbreekt het autoregressieve knelpunt en reduceert het aantal functie-evaluaties. Discrete Diffusion VLA behaalt 96,3% gemiddelde SR op LIBERO, 71,2% visuele matching op SimplerEnv Fractal en 49,3% totaal op SimplerEnv Bridge, wat een verbetering is ten opzichte van zowel autoregressieve als continue diffusie-baselines. Deze bevindingen geven aan dat de discrete-diffusie-actiedecoder precieze actiemodellering en consistente training ondersteunt, wat de basis legt voor het opschalen van VLA naar grotere modellen en datasets.
English
Vision-Language-Action (VLA) models adapt large vision-language backbones to
map images and instructions to robot actions. However, prevailing VLA decoders
either generate actions autoregressively in a fixed left-to-right order or
attach continuous diffusion or flow matching heads outside the backbone,
demanding specialized training and iterative sampling that hinder a unified,
scalable architecture. We present Discrete Diffusion VLA, a single-transformer
policy that models discretized action chunks with discrete diffusion and is
trained with the same cross-entropy objective as the VLM backbone. The design
retains diffusion's progressive refinement paradigm while remaining natively
compatible with the discrete token interface of VLMs. Our method achieves an
adaptive decoding order that resolves easy action elements before harder ones
and uses secondary remasking to revisit uncertain predictions across refinement
rounds, which improves consistency and enables robust error correction. This
unified decoder preserves pretrained vision language priors, supports parallel
decoding, breaks the autoregressive bottleneck, and reduces the number of
function evaluations. Discrete Diffusion VLA achieves 96.3% avg. SR on LIBERO,
71.2% visual matching on SimplerEnv Fractal and 49.3% overall on SimplerEnv
Bridge, improving over both autoregressive and continuous diffusion baselines.
These findings indicate that discrete-diffusion action decoder supports precise
action modeling and consistent training, laying groundwork for scaling VLA to
larger models and datasets.