高效推理的艺术：数据、奖励与优化

Abstract

I Modelli Linguistici di Grande Dimensione (LLM) traggono costantemente vantaggio dal ragionamento a catena del pensiero (CoT) scalato, ma soffrono anche di un pesente sovraccarico computazionale. Per affrontare questo problema, il ragionamento efficiente mira a incentivare traiettorie di pensiero brevi ma accurate, tipicamente attraverso la modellazione delle ricompense con Apprendimento per Rinforzo (RL). In questo articolo, investigiamo sistematicamente la meccanica del ragionamento efficiente per gli LLM. Per una valutazione completa, sosteniamo l'uso di metriche più granulari, includendo la distribuzione della lunghezza condizionata alla correttezza e le prestazioni attraverso un ampio spettro di budget di token che vanno da 2k a 32k. In primo luogo, riveliamo che il processo di addestramento segue un paradigma in due fasi: adattamento della lunghezza e raffinamento del ragionamento. Successivamente, conduciamo esperimenti estesi (circa 0.2 milioni di ore GPU) in un protocollo unificato, scomponendo i prompt di addestramento e i rollouts, la modellazione delle ricompense e le strategie di ottimizzazione. In particolare, un risultato chiave è addestrare su prompt relativamente più semplici, garantendo la densità di segnali di ricompensa positivi e quindi evitando il collasso della lunghezza. Nel contempo, la distorsione della lunghezza appresa può essere generalizzata attraverso diversi domini. Distilliamo tutti i risultati in spunti di valore e linee guida pratiche, e li validiamo ulteriormente attraverso la serie Qwen3, che spazia da 0.6B a 30B, dimostrandone la robustezza e la generalizzazione.

English

Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.

高效推理的艺术：数据、奖励与优化

The Art of Efficient Reasoning: Data, Reward, and Optimization

Abstract

Support