Die Flexibilitätsfalle: Warum willkürliche Reihenfolgebegrenzung das Reasoning-Potenzial von Diffusionssprachmodellen einschränkt
The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
January 21, 2026
papers.authors: Zanlin Ni, Shenzhi Wang, Yang Yue, Tianyu Yu, Weilin Zhao, Yeguo Hua, Tianyi Chen, Jun Song, Cheng Yu, Bo Zheng, Gao Huang
cs.AI
papers.abstract
Diffusion Large Language Models (dLLMs) durchbrechen die starre Links-nach-rechts-Einschränkung traditioneller LLMs und ermöglichen die Erzeugung von Tokens in beliebiger Reihenfolge. Intuitiv impliziert diese Flexibilität einen Lösungsraum, der den festen autoregressiven Pfad strikt umfasst und theoretisch ein überlegenes Reasoning-Potenzial für allgemeine Aufgaben wie Mathematik und Coding eröffnet. Folglich haben zahlreiche Arbeiten Reinforcement Learning (RL) genutzt, um die Reasoning-Fähigkeit von dLLMs zu fördern. In diesem Artikel zeigen wir eine kontraintuitive Realität auf: Die Erzeugung in beliebiger Reihenfolge verengt in ihrer aktuellen Form die Reasoning-Grenze von dLLMs, anstatt sie zu erweitern. Wir stellen fest, dass dLLMs dazu neigen, diese Reihenfolgeflexibilität auszunutzen, um Tokens mit hoher Unsicherheit zu umgehen, die für Exploration entscheidend sind, was zu einem vorzeitigen Kollabieren des Lösungsraums führt. Diese Beobachtung stellt die Prämisse bestehender RL-Ansätze für dLLMs infrage, bei denen erhebliche Komplexitäten, wie die Handhabung kombinatorischer Trajektorien und nicht handhabbarer Likelihoods, oft darauf verwendet werden, diese Flexibilität zu bewahren. Wir demonstrieren, dass effektives Reasoning besser gefördert wird, indem man bewusst auf beliebige Reihenfolge verzichtet und stattdessen standardmäßiges Group Relative Policy Optimization (GRPO) anwendet. Unser Ansatz, JustGRPO, ist minimalistisch und dennoch überraschend effektiv (z.B. 89,1 % Genauigkeit auf GSM8K), während er die parallele Decodierfähigkeit von dLLMs vollständig beibehält. Projektseite: https://nzl-thu.github.io/the-flexibility-trap
English
Diffusion Large Language Models (dLLMs) break the rigid left-to-right constraint of traditional LLMs, enabling token generation in arbitrary orders. Intuitively, this flexibility implies a solution space that strictly supersets the fixed autoregressive trajectory, theoretically unlocking superior reasoning potential for general tasks like mathematics and coding. Consequently, numerous works have leveraged reinforcement learning (RL) to elicit the reasoning capability of dLLMs. In this paper, we reveal a counter-intuitive reality: arbitrary order generation, in its current form, narrows rather than expands the reasoning boundary of dLLMs. We find that dLLMs tend to exploit this order flexibility to bypass high-uncertainty tokens that are crucial for exploration, leading to a premature collapse of the solution space. This observation challenges the premise of existing RL approaches for dLLMs, where considerable complexities, such as handling combinatorial trajectories and intractable likelihoods, are often devoted to preserving this flexibility. We demonstrate that effective reasoning is better elicited by intentionally forgoing arbitrary order and applying standard Group Relative Policy Optimization (GRPO) instead. Our approach, JustGRPO, is minimalist yet surprisingly effective (e.g., 89.1% accuracy on GSM8K) while fully retaining the parallel decoding ability of dLLMs. Project page: https://nzl-thu.github.io/the-flexibility-trap