柔軟性の罠:拡散言語モデルにおける任意の順序制限が推論可能性を阻害する理由 (注:タイトルは「The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models」の日本語訳です。拡散モデル(Diffusion Models)と推論可能性(Reasoning Potential)はAI分野の標準訳語に従っています。)
The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
January 21, 2026
著者: Zanlin Ni, Shenzhi Wang, Yang Yue, Tianyu Yu, Weilin Zhao, Yeguo Hua, Tianyi Chen, Jun Song, Cheng Yu, Bo Zheng, Gao Huang
cs.AI
要旨
拡散大規模言語モデル(dLLM)は、従来のLLMが持つ厳格な左から右への生成制約を打破し、任意の順序でのトークン生成を可能にする。直観的には、この柔軟性は固定された自己回帰的軌道を厳密に包含する解空間を意味し、数学やコーディングのような一般タスクにおいて理論的に優れた推論潜在能力を開放すると考えられる。この結果、多くの研究が強化学習(RL)を活用してdLLMの推論能力を引き出そうとしてきた。本論文では、直観に反する現実を明らかにする:現在の形式における任意順序生成は、dLLMの推論境界を拡大するどころか、むしろ狭めている。我々は、dLLMが探索に不可欠な高不確実性トークンを回避するためにこの順序柔軟性を利用する傾向があり、解空間の早期収束を招くことを発見した。この観察は、組み合わせ軌道の処理や扱い難い尤度といった相当な複雑さを、この柔軟性の維持に費やしている既存のdLLM向けRLアプローチの前提に疑問を投げかける。我々は、効果的な推論は意図的に任意順序を放棄し、代わりに標準的なGroup Relative Policy Optimization(GRPO)を適用することでより良く引き出されることを実証する。我々のアプローチであるJustGRPOは、最小限でありながら驚くほど効果的(例:GSM8Kで89.1%の精度)であり、dLLMの並列復号能力を完全に保持する。プロジェクトページ: https://nzl-thu.github.io/the-flexibility-trap
English
Diffusion Large Language Models (dLLMs) break the rigid left-to-right constraint of traditional LLMs, enabling token generation in arbitrary orders. Intuitively, this flexibility implies a solution space that strictly supersets the fixed autoregressive trajectory, theoretically unlocking superior reasoning potential for general tasks like mathematics and coding. Consequently, numerous works have leveraged reinforcement learning (RL) to elicit the reasoning capability of dLLMs. In this paper, we reveal a counter-intuitive reality: arbitrary order generation, in its current form, narrows rather than expands the reasoning boundary of dLLMs. We find that dLLMs tend to exploit this order flexibility to bypass high-uncertainty tokens that are crucial for exploration, leading to a premature collapse of the solution space. This observation challenges the premise of existing RL approaches for dLLMs, where considerable complexities, such as handling combinatorial trajectories and intractable likelihoods, are often devoted to preserving this flexibility. We demonstrate that effective reasoning is better elicited by intentionally forgoing arbitrary order and applying standard Group Relative Policy Optimization (GRPO) instead. Our approach, JustGRPO, is minimalist yet surprisingly effective (e.g., 89.1% accuracy on GSM8K) while fully retaining the parallel decoding ability of dLLMs. Project page: https://nzl-thu.github.io/the-flexibility-trap