A Armadilha da Flexibilidade: Por Que Limites de Ordem Arbitrários Restringem o Potencial de Raciocínio em Modelos de Linguagem de Difusão

Resumo

Os Modelos de Linguagem de Grande Porte por Difusão (dLLMs) quebram a restrição rígida de geração da esquerda para a direita dos LLMs tradicionais, permitindo a geração de tokens em ordens arbitrárias. Intuitivamente, essa flexibilidade implica um espaço de solução que é um superconjunto estrito da trajetória autoregressiva fixa, teoricamente desbloqueando um potencial de raciocínio superior para tarefas gerais como matemática e programação. Consequentemente, numerosos trabalhos utilizaram aprendizagem por reforço (RL) para eliciar a capacidade de raciocínio dos dLLMs. Neste artigo, revelamos uma realidade contraintuitiva: a geração em ordem arbitrária, em sua forma atual, estreita em vez de expandir a fronteira de raciocínio dos dLLMs. Descobrimos que os dLLMs tendem a explorar essa flexibilidade de ordem para contornar tokens de alta incerteza que são cruciais para a exploração, levando a um colapso prematuro do espaço de solução. Esta observação desafia a premissa das abordagens de RL existentes para dLLMs, onde complexidades consideráveis, como o tratamento de trajetórias combinatórias e verossimilhanças intratáveis, são frequentemente dedicadas a preservar essa flexibilidade. Demonstramos que o raciocínio eficaz é melhor eliciado ao intencionalmente abdicar da ordem arbitrária e aplicar a Otimização de Política Relativa de Grupo (GRPO) padrão. Nossa abordagem, JustGRPO, é minimalista, mas surpreendentemente eficaz (por exemplo, 89,1% de precisão no GSM8K), mantendo totalmente a capacidade de decodificação paralela dos dLLMs. Página do projeto: https://nzl-thu.github.io/the-flexibility-trap

English

Diffusion Large Language Models (dLLMs) break the rigid left-to-right constraint of traditional LLMs, enabling token generation in arbitrary orders. Intuitively, this flexibility implies a solution space that strictly supersets the fixed autoregressive trajectory, theoretically unlocking superior reasoning potential for general tasks like mathematics and coding. Consequently, numerous works have leveraged reinforcement learning (RL) to elicit the reasoning capability of dLLMs. In this paper, we reveal a counter-intuitive reality: arbitrary order generation, in its current form, narrows rather than expands the reasoning boundary of dLLMs. We find that dLLMs tend to exploit this order flexibility to bypass high-uncertainty tokens that are crucial for exploration, leading to a premature collapse of the solution space. This observation challenges the premise of existing RL approaches for dLLMs, where considerable complexities, such as handling combinatorial trajectories and intractable likelihoods, are often devoted to preserving this flexibility. We demonstrate that effective reasoning is better elicited by intentionally forgoing arbitrary order and applying standard Group Relative Policy Optimization (GRPO) instead. Our approach, JustGRPO, is minimalist yet surprisingly effective (e.g., 89.1% accuracy on GSM8K) while fully retaining the parallel decoding ability of dLLMs. Project page: https://nzl-thu.github.io/the-flexibility-trap

A Armadilha da Flexibilidade: Por Que Limites de Ordem Arbitrários Restringem o Potencial de Raciocínio em Modelos de Linguagem de Difusão

The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

Resumo

Support