VLA à Diffusion Discrète : Intégration de la Diffusion Discrète dans le Décodage d'Actions pour les Politiques Vision-Langue-Action
Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
August 27, 2025
papers.authors: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) adaptent des architectures de base vision-langage de grande envergure pour associer des images et des instructions à des actions robotiques. Cependant, les décodeurs VLA dominants génèrent soit des actions de manière autorégressive dans un ordre fixe de gauche à droite, soit intègrent des têtes de diffusion continue ou de correspondance de flux en dehors de l'architecture de base, nécessitant un entraînement spécialisé et un échantillonnage itératif qui entravent une architecture unifiée et évolutive. Nous présentons Discrete Diffusion VLA, une politique à transformateur unique qui modélise des segments d'actions discrétisés avec une diffusion discrète et est entraînée avec le même objectif d'entropie croisée que l'architecture de base VLM. Cette conception conserve le paradigme de raffinement progressif de la diffusion tout en restant nativement compatible avec l'interface de jetons discrets des VLMs. Notre méthode permet un ordre de décodage adaptatif qui résout les éléments d'action faciles avant les plus complexes et utilise un remasquage secondaire pour revisiter les prédictions incertaines au cours des tours de raffinement, ce qui améliore la cohérence et permet une correction robuste des erreurs. Ce décodeur unifié préserve les connaissances préalables en vision et langage, supporte le décodage parallèle, brise le goulot d'étranglement autorégressif et réduit le nombre d'évaluations de fonctions. Discrete Diffusion VLA atteint 96,3 % de taux de réussite moyen sur LIBERO, 71,2 % de correspondance visuelle sur SimplerEnv Fractal et 49,3 % globalement sur SimplerEnv Bridge, surpassant les approches autorégressives et de diffusion continue. Ces résultats indiquent que le décodeur d'actions à diffusion discrète permet une modélisation précise des actions et un entraînement cohérent, posant les bases pour l'extension des VLA à des modèles et des ensembles de données plus vastes.
English
Vision-Language-Action (VLA) models adapt large vision-language backbones to
map images and instructions to robot actions. However, prevailing VLA decoders
either generate actions autoregressively in a fixed left-to-right order or
attach continuous diffusion or flow matching heads outside the backbone,
demanding specialized training and iterative sampling that hinder a unified,
scalable architecture. We present Discrete Diffusion VLA, a single-transformer
policy that models discretized action chunks with discrete diffusion and is
trained with the same cross-entropy objective as the VLM backbone. The design
retains diffusion's progressive refinement paradigm while remaining natively
compatible with the discrete token interface of VLMs. Our method achieves an
adaptive decoding order that resolves easy action elements before harder ones
and uses secondary remasking to revisit uncertain predictions across refinement
rounds, which improves consistency and enables robust error correction. This
unified decoder preserves pretrained vision language priors, supports parallel
decoding, breaks the autoregressive bottleneck, and reduces the number of
function evaluations. Discrete Diffusion VLA achieves 96.3% avg. SR on LIBERO,
71.2% visual matching on SimplerEnv Fractal and 49.3% overall on SimplerEnv
Bridge, improving over both autoregressive and continuous diffusion baselines.
These findings indicate that discrete-diffusion action decoder supports precise
action modeling and consistent training, laying groundwork for scaling VLA to
larger models and datasets.