離散拡散VLA:視覚-言語-行動ポリシーにおける行動デコーディングへの離散拡散の導入
Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
August 27, 2025
著者: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo
cs.AI
要旨
Vision-Language-Action (VLA)モデルは、大規模な視覚言語バックボーンを適応させ、画像と指示をロボットのアクションにマッピングします。しかし、既存のVLAデコーダは、固定された左から右の順序で自己回帰的にアクションを生成するか、バックボーンの外部に連続的な拡散またはフローマッチングヘッドを付加しており、専門的なトレーニングと反復サンプリングを必要とし、統一されたスケーラブルなアーキテクチャを妨げています。本論文では、Discrete Diffusion VLAを提案します。これは、離散拡散を用いて離散化されたアクションチャンクをモデル化し、VLMバックボーンと同じクロスエントロピー目的関数でトレーニングされる単一トランスフォーマーポリシーです。この設計は、拡散の漸進的改良パラダイムを保持しつつ、VLMの離散トークンインターフェースとネイティブに互換性があります。本手法は、容易なアクション要素を先に解決し、難しい要素を後に回す適応的なデコード順序を実現し、二次的なリマスキングを用いて不確実な予測を改良ラウンド間で再訪することで、一貫性を向上させ、堅牢なエラー修正を可能にします。この統一デコーダは、事前学習済みの視覚言語事前分布を保持し、並列デコードをサポートし、自己回帰的ボトルネックを打破し、関数評価の回数を削減します。Discrete Diffusion VLAは、LIBEROで96.3%の平均成功率、SimplerEnv Fractalで71.2%の視覚マッチング率、SimplerEnv Bridgeで49.3%の総合スコアを達成し、自己回帰および連続拡散ベースラインを上回りました。これらの結果は、離散拡散アクションデコーダが精密なアクションモデリングと一貫したトレーニングをサポートし、VLAをより大規模なモデルとデータセットにスケーリングするための基盤を築くことを示しています。
English
Vision-Language-Action (VLA) models adapt large vision-language backbones to
map images and instructions to robot actions. However, prevailing VLA decoders
either generate actions autoregressively in a fixed left-to-right order or
attach continuous diffusion or flow matching heads outside the backbone,
demanding specialized training and iterative sampling that hinder a unified,
scalable architecture. We present Discrete Diffusion VLA, a single-transformer
policy that models discretized action chunks with discrete diffusion and is
trained with the same cross-entropy objective as the VLM backbone. The design
retains diffusion's progressive refinement paradigm while remaining natively
compatible with the discrete token interface of VLMs. Our method achieves an
adaptive decoding order that resolves easy action elements before harder ones
and uses secondary remasking to revisit uncertain predictions across refinement
rounds, which improves consistency and enables robust error correction. This
unified decoder preserves pretrained vision language priors, supports parallel
decoding, breaks the autoregressive bottleneck, and reduces the number of
function evaluations. Discrete Diffusion VLA achieves 96.3% avg. SR on LIBERO,
71.2% visual matching on SimplerEnv Fractal and 49.3% overall on SimplerEnv
Bridge, improving over both autoregressive and continuous diffusion baselines.
These findings indicate that discrete-diffusion action decoder supports precise
action modeling and consistent training, laying groundwork for scaling VLA to
larger models and datasets.