Stabilizzazione del Ragionamento Efficiente con la Selezione di Vantaggio a Livello di Passo
Stabilizing Efficient Reasoning with Step-Level Advantage Selection
April 27, 2026
Autori: Han Wang, Xiaodong Yu, Jialian Wu, Jiang Liu, Ximeng Sun, Mohit Bansal, Zicheng Liu
cs.AI
Abstract
I grandi modelli linguistici (LLM) ottengono solide prestazioni di ragionamento allocando una sostanziale quantità di calcolo al momento dell'inferenza, generando spesso tracce di ragionamento lunghe e verbose. Sebbene i recenti lavori sul ragionamento efficiente riducano questo sovraccarico attraverso ricompense basate sulla lunghezza o potature, molti approcci vengono addestrati in post-addestramento con una finestra contestuale molto più corta rispetto all'addestramento del modello base, un fattore il cui effetto non è stato isolato sistematicamente. Mostriamo innanzitutto che il solo post-addestramento a contesto breve, utilizzando il GRPO standard senza alcun obiettivo legato alla lunghezza, induce già di per sé una sostanziale compressione del ragionamento, ma al prezzo di dinamiche di addestramento sempre più instabili e di un degrado dell'accuratezza. Per affrontare questo problema, proponiamo la Selezione del Vantaggio a Livello di Passaggio (Step-level Advantage Selection, SAS), che opera a livello del singolo passo di ragionamento e assegna un vantaggio pari a zero ai passaggi a bassa confidenza in rollout corretti e ai passaggi ad alta confidenza in rollout falliti dal verificatore, dove i fallimenti spesso derivano da troncamenti o problemi del verificatore piuttosto che da un ragionamento errato. Su vari benchmark di ragionamento matematico e generale, SAS migliora l'accuratezza media Pass@1 di 0,86 punti rispetto al baseline più forte con consapevolezza della lunghezza, riducendo al contempo la lunghezza media del ragionamento del 16,3%, producendo un miglior compromesso tra accuratezza ed efficienza.
English
Large language models (LLMs) achieve strong reasoning performance by allocating substantial computation at inference time, often generating long and verbose reasoning traces. While recent work on efficient reasoning reduces this overhead through length-based rewards or pruning, many approaches are post-trained under a much shorter context window than base-model training, a factor whose effect has not been systematically isolated. We first show that short-context post-training alone, using standard GRPO without any length-aware objective, already induces substantial reasoning compression-but at the cost of increasingly unstable training dynamics and accuracy degradation. To address this, we propose Step-level Advantage Selection (SAS), which operates at the reasoning-step level and assigns a zero advantage to low-confidence steps in correct rollouts and to high-confidence steps in verifier-failed rollouts, where failures often arise from truncation or verifier issues rather than incorrect reasoning. Across diverse mathematical and general reasoning benchmarks, SAS improves average Pass@1 accuracy by 0.86 points over the strongest length-aware baseline while reducing average reasoning length by 16.3%, yielding a better accuracy-efficiency trade-off.