高效推理的艺术：数据、奖励与优化

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) beneficiam consistentemente do raciocínio em cadeia de pensamento (CoT) em escala, mas também sofrem com uma pesada sobrecarga computacional. Para resolver este problema, o raciocínio eficiente visa incentivar trajetórias de pensamento curtas mas precisas, tipicamente através da modelagem de recompensas com Aprendizagem por Reforço (RL). Neste artigo, investigamos sistematicamente a mecânica do raciocínio eficiente para LLMs. Para uma avaliação abrangente, defendemos métricas mais refinadas, incluindo a distribuição de comprimento condicionada à correção e o desempenho ao longo de um amplo espectro de orçamentos de tokens, variando de 2k a 32k. Primeiro, revelamos que o processo de treinamento segue um paradigma de dois estágios: adaptação de comprimento e refinamento do raciocínio. Após isso, conduzimos extensivos experimentos (cerca de 0.2 milhões de horas de GPU) num protocolo unificado, desconstruindo *prompts* de treino e *rollouts*, modelagem de recompensas e estratégias de otimização. Em particular, uma descoberta fundamental é treinar com *prompts* relativamente mais fáceis, garantindo a densidade de sinais de recompensa positivos e, assim, evitando o colapso de comprimento. Entretanto, o viés de comprimento aprendido pode ser generalizado entre domínios. Destilamos todas as descobertas em perspetivas valiosas e diretrizes práticas, e validamo-las ainda na série Qwen3, desde 0.6B até 30B, demonstrando a robustez e a generalização.

English

Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.

高效推理的艺术：数据、奖励与优化

The Art of Efficient Reasoning: Data, Reward, and Optimization

Resumo

Support