ChatPaper.aiChatPaper

확산 언어 모델에서 임의적 순서 제한이 추론 잠재력을 저해하는 이유: '유연성 함정' 분석

The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

January 21, 2026
저자: Zanlin Ni, Shenzhi Wang, Yang Yue, Tianyu Yu, Weilin Zhao, Yeguo Hua, Tianyi Chen, Jun Song, Cheng Yu, Bo Zheng, Gao Huang
cs.AI

초록

확산 대형 언어 모델(dLLM)은 기존 LLM의 경직된 좌측-우측 제약을 깨고 임의의 순서로 토큰 생성을 가능하게 합니다. 직관적으로 볼 때, 이러한 유연성은 고정된 자기회귀적 궤적을 엄격하게 포함하는 더 넓은 해법 공간을 의미하며, 이론적으로 수학 및 코딩과 같은 일반 과제에서 더 우수한 추론 잠재력을 제공합니다. 이에 따라 많은 연구에서 강화 학습(RL)을 활용하여 dLLM의 추론 능력을 이끌어내고자 했습니다. 본 논문에서는 직관과 반대로, 현재 형태의 임의 순서 생성이 dLLM의 추론 경계를 확장하기보다는 오히려 축소한다는 사실을 밝힙니다. 우리는 dLLM이 탐색에 중요한 고불확도 토큰을 회피하기 위해 이러한 순서 유연성을 이용하는 경향이 있어, 해법 공간이 조기에 붕괴된다는 점을 발견했습니다. 이 관찰은 기존 dLLM RL 접근법의 전제에 도전합니다. 해당 접근법에서는 조합적 궤적 처리와 다루기 힘든 가능도 같은 상당한 복잡성을 감수하면서까지 이러한 유연성을 유지하려고 합니다. 우리는 효과적인 추론을 이끌어내기 위해 오히려 임의 순서 생성을 의도적으로 포기하고 표준 GRPO(Group Relative Policy Optimization)를 적용하는 것이 더 낫다는 것을 입증합니다. 우리의 접근법인 JustGRPO는 극도로 간결하면서도 놀라울 정도로 효과적이며(예: GSM8K에서 89.1% 정확도), dLLM의 병렬 디코딩 능력을 완전히 보존합니다. 프로젝트 페이지: https://nzl-thu.github.io/the-flexibility-trap
English
Diffusion Large Language Models (dLLMs) break the rigid left-to-right constraint of traditional LLMs, enabling token generation in arbitrary orders. Intuitively, this flexibility implies a solution space that strictly supersets the fixed autoregressive trajectory, theoretically unlocking superior reasoning potential for general tasks like mathematics and coding. Consequently, numerous works have leveraged reinforcement learning (RL) to elicit the reasoning capability of dLLMs. In this paper, we reveal a counter-intuitive reality: arbitrary order generation, in its current form, narrows rather than expands the reasoning boundary of dLLMs. We find that dLLMs tend to exploit this order flexibility to bypass high-uncertainty tokens that are crucial for exploration, leading to a premature collapse of the solution space. This observation challenges the premise of existing RL approaches for dLLMs, where considerable complexities, such as handling combinatorial trajectories and intractable likelihoods, are often devoted to preserving this flexibility. We demonstrate that effective reasoning is better elicited by intentionally forgoing arbitrary order and applying standard Group Relative Policy Optimization (GRPO) instead. Our approach, JustGRPO, is minimalist yet surprisingly effective (e.g., 89.1% accuracy on GSM8K) while fully retaining the parallel decoding ability of dLLMs. Project page: https://nzl-thu.github.io/the-flexibility-trap
PDF551January 24, 2026