ChatPaper.aiChatPaper

Le Piège de la Flexibilité : Pourquoi les Limites d'Ordre Arbitraires Réduisent le Potentiel de Raisonnement dans les Modèles de Langage par Diffusion

The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

January 21, 2026
papers.authors: Zanlin Ni, Shenzhi Wang, Yang Yue, Tianyu Yu, Weilin Zhao, Yeguo Hua, Tianyi Chen, Jun Song, Cheng Yu, Bo Zheng, Gao Huang
cs.AI

papers.abstract

Les modèles de langage à diffusion (dLLM) brisent la contrainte rigide de gauche à droite des LLM traditionnels, permettant la génération de tokens dans des ordres arbitraires. Intuitivement, cette flexibilité implique un espace de solution qui surpasse strictement la trajectoire autogressive fixe, débloquant théoriquement un potentiel de raisonnement supérieur pour des tâches générales comme les mathématiques et la programmation. Par conséquent, de nombreux travaux ont exploité l'apprentissage par renforcement (RL) pour susciter la capacité de raisonnement des dLLM. Dans cet article, nous révélons une réalité contre-intuitive : la génération en ordre arbitraire, dans sa forme actuelle, rétrécit plutôt qu'elle n'élargit la frontière de raisonnement des dLLM. Nous constatons que les dLLM ont tendance à exploiter cette flexibilité d'ordre pour contourner les tokens à forte incertitude qui sont cruciaux pour l'exploration, conduisant à un effondrement prématuré de l'espace de solution. Cette observation remet en cause le postulat des approches RL existantes pour les dLLM, où des complexités considérables, comme la gestion des trajectoires combinatoires et des vraisemblances intraçables, sont souvent consacrées à préserver cette flexibilité. Nous démontrons qu'un raisonnement efficace est mieux suscité en renonçant intentionnellement à l'ordre arbitraire et en appliquant à la place l'Optimisation de Politique Relative par Groupe (GRPO) standard. Notre approche, JustGRPO, est minimaliste mais étonnamment efficace (par exemple, 89,1 % de précision sur GSM8K) tout en conservant pleinement la capacité de décodage parallèle des dLLM. Page du projet : https://nzl-thu.github.io/the-flexibility-trap
English
Diffusion Large Language Models (dLLMs) break the rigid left-to-right constraint of traditional LLMs, enabling token generation in arbitrary orders. Intuitively, this flexibility implies a solution space that strictly supersets the fixed autoregressive trajectory, theoretically unlocking superior reasoning potential for general tasks like mathematics and coding. Consequently, numerous works have leveraged reinforcement learning (RL) to elicit the reasoning capability of dLLMs. In this paper, we reveal a counter-intuitive reality: arbitrary order generation, in its current form, narrows rather than expands the reasoning boundary of dLLMs. We find that dLLMs tend to exploit this order flexibility to bypass high-uncertainty tokens that are crucial for exploration, leading to a premature collapse of the solution space. This observation challenges the premise of existing RL approaches for dLLMs, where considerable complexities, such as handling combinatorial trajectories and intractable likelihoods, are often devoted to preserving this flexibility. We demonstrate that effective reasoning is better elicited by intentionally forgoing arbitrary order and applying standard Group Relative Policy Optimization (GRPO) instead. Our approach, JustGRPO, is minimalist yet surprisingly effective (e.g., 89.1% accuracy on GSM8K) while fully retaining the parallel decoding ability of dLLMs. Project page: https://nzl-thu.github.io/the-flexibility-trap
PDF551January 24, 2026