Mitigare l'Overthinking attraverso il Modellamento del Ragionamento
Mitigating Overthinking through Reasoning Shaping
October 10, 2025
Autori: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang
cs.AI
Abstract
I grandi modelli di ragionamento (LRM) potenziati dall'Apprendimento per Rinforzo con Ricompensa da Verificatore (RLVR) hanno dimostrato una grande capacità nella risoluzione di problemi, ma spesso causano un eccesso di ragionamento: un ragionamento prolisso e dispersivo che aumenta il costo computazionale. I precedenti approcci di penalizzazione nell'RLVR sono riusciti a ridurre il consumo di token, ma spesso a scapito delle prestazioni del modello, a causa della semplicità eccessiva della supervisione a livello di token. In questo articolo, sosteniamo che la granularità della supervisione svolge un ruolo cruciale nel bilanciare efficienza e accuratezza, e proponiamo la Penalizzazione Relativa a Segmenti di Gruppo (GRSP), un metodo a livello di passi per regolarizzare il ragionamento. Poiché analisi preliminari mostrano che i segmenti di ragionamento sono fortemente correlati al consumo di token e alle prestazioni del modello, progettiamo un meccanismo di ponderazione basato sulla lunghezza applicato ai cluster di segmenti. Esperimenti estesi dimostrano che il GRSP raggiunge una superior efficienza nei token senza compromettere pesantemente l'accuratezza, mostrando particolari vantaggi con problemi più complessi. Inoltre, il GRSP stabilizza l'addestramento RL e scala efficacemente con le dimensioni del modello.
English
Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier
Reward (RLVR) have shown great power in problem solving, yet they often cause
overthinking: excessive, meandering reasoning that inflates computational cost.
Prior designs of penalization in RLVR manage to reduce token consumption while
often harming model performance, which arises from the oversimplicity of
token-level supervision. In this paper, we argue that the granularity of
supervision plays a crucial role in balancing efficiency and accuracy, and
propose Group Relative Segment Penalization (GRSP), a step-level method to
regularize reasoning. Since preliminary analyses show that reasoning segments
are strongly correlated with token consumption and model performance, we design
a length-aware weighting mechanism across segment clusters. Extensive
experiments demonstrate that GRSP achieves superior token efficiency without
heavily compromising accuracy, especially the advantages with harder problems.
Moreover, GRSP stabilizes RL training and scales effectively across model
sizes.