Ловушка гибкости: почему произвольное ограничение порядка снижает потенциал логического вывода в диффузионных языковых моделях
The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
January 21, 2026
Авторы: Zanlin Ni, Shenzhi Wang, Yang Yue, Tianyu Yu, Weilin Zhao, Yeguo Hua, Tianyi Chen, Jun Song, Cheng Yu, Bo Zheng, Gao Huang
cs.AI
Аннотация
Диффузионные большие языковые модели (dLLM) преодолевают жесткое ограничение слева направо, присущее традиционным LLM, позволяя генерировать токены в произвольном порядке. Интуитивно эта гибкость подразумевает пространство решений, которое строго включает в себя фиксированную авторегрессионную траекторию, теоретически раскрывая превосходный потенциал для рассуждений в таких общих задачах, как математика и программирование. В результате многие работы используют обучение с подкреплением (RL), чтобы выявить способность dLLM к рассуждениям. В данной статье мы раскрываем контр-интуитивную реальность: генерация в произвольном порядке в своей текущей форме не расширяет, а сужает границы рассуждений dLLM. Мы обнаруживаем, что dLLM склонны использовать эту гибкость порядка, чтобы обходить токены с высокой неопределенностью, которые crucial для исследования, что приводит к преждевременному коллапсу пространства решений. Это наблюдение ставит под сомнение предпосылку существующих подходов RL для dLLM, где значительные сложности, такие как обработка комбинаторных траекторий и невычислимых правдоподобий, часто направлены на сохранение данной гибкости. Мы демонстрируем, что эффективное рассуждение лучше стимулируется путем сознательного отказа от произвольного порядка и применения стандартной оптимизации групповой относительной политики (GRPO). Наш подход, JustGRPO, минималистичен, но удивительно эффективен (например, точность 89.1% на GSM8K), при этом полностью сохраняя способность dLLM к параллельному декодированию. Страница проекта: https://nzl-thu.github.io/the-flexibility-trap
English
Diffusion Large Language Models (dLLMs) break the rigid left-to-right constraint of traditional LLMs, enabling token generation in arbitrary orders. Intuitively, this flexibility implies a solution space that strictly supersets the fixed autoregressive trajectory, theoretically unlocking superior reasoning potential for general tasks like mathematics and coding. Consequently, numerous works have leveraged reinforcement learning (RL) to elicit the reasoning capability of dLLMs. In this paper, we reveal a counter-intuitive reality: arbitrary order generation, in its current form, narrows rather than expands the reasoning boundary of dLLMs. We find that dLLMs tend to exploit this order flexibility to bypass high-uncertainty tokens that are crucial for exploration, leading to a premature collapse of the solution space. This observation challenges the premise of existing RL approaches for dLLMs, where considerable complexities, such as handling combinatorial trajectories and intractable likelihoods, are often devoted to preserving this flexibility. We demonstrate that effective reasoning is better elicited by intentionally forgoing arbitrary order and applying standard Group Relative Policy Optimization (GRPO) instead. Our approach, JustGRPO, is minimalist yet surprisingly effective (e.g., 89.1% accuracy on GSM8K) while fully retaining the parallel decoding ability of dLLMs. Project page: https://nzl-thu.github.io/the-flexibility-trap