Discrete Diffusion VLA: Применение дискретной диффузии для декодирования действий в политиках "Визуальный язык - Действие"
Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
August 27, 2025
Авторы: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo
cs.AI
Аннотация
Модели Vision-Language-Action (VLA) адаптируют крупные архитектуры для обработки визуальных и языковых данных, чтобы преобразовывать изображения и инструкции в действия робота. Однако преобладающие декодеры VLA либо генерируют действия авторегрессивно в фиксированном порядке слева направо, либо используют непрерывные диффузионные или flow matching головы за пределами основной архитектуры, что требует специализированного обучения и итеративной выборки, что препятствует созданию унифицированной и масштабируемой архитектуры. Мы представляем Discrete Diffusion VLA — единую трансформерную политику, которая моделирует дискретизированные фрагменты действий с помощью дискретной диффузии и обучается с тем же кросс-энтропийным целевым функционалом, что и базовая VLM архитектура. Этот подход сохраняет парадигму прогрессивного уточнения, характерную для диффузии, оставаясь при этом совместимым с интерфейсом дискретных токенов VLM. Наш метод обеспечивает адаптивный порядок декодирования, который сначала разрешает простые элементы действий, а затем более сложные, и использует вторичное повторное маскирование для пересмотра неопределенных предсказаний на этапах уточнения, что улучшает согласованность и позволяет эффективно исправлять ошибки. Этот унифицированный декодер сохраняет предварительно обученные приоритеты для визуальных и языковых данных, поддерживает параллельное декодирование, устраняет авторегрессивное узкое место и сокращает количество вычислений функций. Discrete Diffusion VLA достигает 96,3% среднего SR на LIBERO, 71,2% визуального соответствия на SimplerEnv Fractal и 49,3% общего результата на SimplerEnv Bridge, превосходя как авторегрессивные, так и непрерывные диффузионные базовые модели. Эти результаты показывают, что декодер действий на основе дискретной диффузии поддерживает точное моделирование действий и согласованное обучение, закладывая основу для масштабирования VLA на более крупные модели и наборы данных.
English
Vision-Language-Action (VLA) models adapt large vision-language backbones to
map images and instructions to robot actions. However, prevailing VLA decoders
either generate actions autoregressively in a fixed left-to-right order or
attach continuous diffusion or flow matching heads outside the backbone,
demanding specialized training and iterative sampling that hinder a unified,
scalable architecture. We present Discrete Diffusion VLA, a single-transformer
policy that models discretized action chunks with discrete diffusion and is
trained with the same cross-entropy objective as the VLM backbone. The design
retains diffusion's progressive refinement paradigm while remaining natively
compatible with the discrete token interface of VLMs. Our method achieves an
adaptive decoding order that resolves easy action elements before harder ones
and uses secondary remasking to revisit uncertain predictions across refinement
rounds, which improves consistency and enables robust error correction. This
unified decoder preserves pretrained vision language priors, supports parallel
decoding, breaks the autoregressive bottleneck, and reduces the number of
function evaluations. Discrete Diffusion VLA achieves 96.3% avg. SR on LIBERO,
71.2% visual matching on SimplerEnv Fractal and 49.3% overall on SimplerEnv
Bridge, improving over both autoregressive and continuous diffusion baselines.
These findings indicate that discrete-diffusion action decoder supports precise
action modeling and consistent training, laying groundwork for scaling VLA to
larger models and datasets.