Ragionamento Efficiente con un Pensiero Bilanciato

Abstract

I Large Reasoning Model (LRM) hanno dimostrato notevoli capacità di ragionamento, ma spesso soffrono di *overthinking*, ovvero impiegano passaggi computazionali ridondanti per problemi semplici, o di *underthinking*, non riuscendo ad esplorare percorsi di ragionamento sufficienti nonostante le capacità intrinseche. Questi problemi portano a inefficienze e potenziali imprecisioni, limitando lo schieramento pratico in contesti con risorse limitate. I metodi esistenti per mitigare l'*overthinking*, come sopprimere parole chiave riflessive o regolare la lunghezza del ragionamento, possono indurre involontariamente l'*underthinking*, compromettendo l'accuratezza. Pertanto, proponiamo ReBalance, un framework *training-free* che realizza un ragionamento efficiente con un pensiero bilanciato. ReBalance utilizza la confidenza come indicatore continuo della dinamica del ragionamento, identificando l'*overthinking* tramite un'elevata varianza della confidenza e l'*underthinking* tramite una sovraconfidenza costante. Aggregando gli stati nascosti da un dataset di piccole dimensioni in prototipi di modalità di ragionamento, calcoliamo un vettore di direzionamento per guidare le traiettorie di ragionamento dei LRM. Una funzione di controllo dinamico modula l'intensità e la direzione di questo vettore basandosi sulla confidenza in tempo reale, eliminando la ridondanza durante l'*overthinking* e promuovendo l'esplorazione durante l'*underthinking*. Esperimenti estensivi condotti su quattro modelli che vanno da 0,5B a 32B parametri, e su nove benchmark in compiti di ragionamento matematico, question answering generale e codifica, dimostrano che ReBalance riduce efficacemente la ridondanza in uscita migliorando al contempo l'accuratezza, offrendo una strategia generale, *training-free* e *plug-and-play* per uno schieramento efficiente e robusto dei LRM. Il codice è disponibile all'indirizzo https://github.com/yu-lin-li/ReBalance.

English

Large Reasoning Models (LRMs) have shown remarkable reasoning capabilities, yet they often suffer from overthinking, expending redundant computational steps on simple problems, or underthinking, failing to explore sufficient reasoning paths despite inherent capabilities. These issues lead to inefficiencies and potential inaccuracies, limiting practical deployment in resource-constrained settings. Existing methods to mitigate overthinking, such as suppressing reflective keywords or adjusting reasoning length, may inadvertently induce underthinking, compromising accuracy. Therefore, we propose ReBalance, a training-free framework that achieves efficient reasoning with balanced thinking. ReBalance leverages confidence as a continuous indicator of reasoning dynamics, identifying overthinking through high confidence variance and underthinking via consistent overconfidence. By aggregating hidden states from a small-scale dataset into reasoning mode prototypes, we compute a steering vector to guide LRMs' reasoning trajectories. A dynamic control function modulates this vector's strength and direction based on real-time confidence, pruning redundancy during overthinking, and promoting exploration during underthinking. Extensive experiments conducted on four models ranging from 0.5B to 32B, and across nine benchmarks in math reasoning, general question answering, and coding tasks demonstrate that ReBalance effectively reduces output redundancy while improving accuracy, offering a general, training-free, and plug-and-play strategy for efficient and robust LRM deployment. Code is available at https://github.com/yu-lin-li/ReBalance .

Ragionamento Efficiente con un Pensiero Bilanciato

Efficient Reasoning with Balanced Thinking

Abstract

Support