Effizientes Schließen durch ausgewogenes Denken

Zusammenfassung

Große Reasoning-Modelle (LRMs) haben bemerkenswerte Reasoning-Fähigkeiten gezeigt, leiden jedoch häufig an Überdenken, bei dem sie überflüssige Rechenschritte für einfache Probleme aufwenden, oder an Unterdenken, bei dem sie trotz inhärenter Fähigkeiten nicht ausreichend viele Reasoning-Pfade erkunden. Diese Probleme führen zu Ineffizienzen und potenziellen Ungenauigkeiten, was den praktischen Einsatz in ressourcenbeschränkten Umgebungen einschränkt. Bestehende Methoden zur Minderung von Überdenken, wie die Unterdrückung reflektierender Schlüsselwörter oder die Anpassung der Reasoning-Länge, können unbeabsichtigt Unterdenken verursachen und dadurch die Genauigkeit beeinträchtigen. Daher schlagen wir ReBalance vor, ein trainingsfreies Framework, das effizientes Reasoning durch ausgewogenes Denken erreicht. ReBalance nutzt Konfidenz als kontinuierlichen Indikator für die Reasoning-Dynamik, identifiziert Überdenken durch hohe Konfidenzvarianz und Unterdenken durch konsistente Überkonfidenz. Durch die Aggregation versteckter Zustände aus einem kleinen Datensatz zu Reasoning-Modus-Prototypen berechnen wir einen Steuerungsvektor, um die Reasoning-Trajektorien der LRMs zu lenken. Eine dynamische Kontrollfunktion moduliert Stärke und Richtung dieses Vektors basierend auf Echtzeit-Konfidenz, reduziert Redundanzen während Überdenkens und fördert die Exploration während Unterdenkens. Umfangreiche Experimente mit vier Modellen von 0,5B bis 32B sowie über neun Benchmarks in mathematischem Reasoning, allgemeiner Fragebeantwortung und Coding-Aufgaben demonstrieren, dass ReBalance effektiv Ausgaberedundanzen reduziert und gleichzeitig die Genauigkeit verbessert. Dies bietet eine allgemeine, trainingsfreie und Plug-and-Play-Strategie für den effizienten und robusten Einsatz von LRMs. Code ist verfügbar unter https://github.com/yu-lin-li/ReBalance.

English

Large Reasoning Models (LRMs) have shown remarkable reasoning capabilities, yet they often suffer from overthinking, expending redundant computational steps on simple problems, or underthinking, failing to explore sufficient reasoning paths despite inherent capabilities. These issues lead to inefficiencies and potential inaccuracies, limiting practical deployment in resource-constrained settings. Existing methods to mitigate overthinking, such as suppressing reflective keywords or adjusting reasoning length, may inadvertently induce underthinking, compromising accuracy. Therefore, we propose ReBalance, a training-free framework that achieves efficient reasoning with balanced thinking. ReBalance leverages confidence as a continuous indicator of reasoning dynamics, identifying overthinking through high confidence variance and underthinking via consistent overconfidence. By aggregating hidden states from a small-scale dataset into reasoning mode prototypes, we compute a steering vector to guide LRMs' reasoning trajectories. A dynamic control function modulates this vector's strength and direction based on real-time confidence, pruning redundancy during overthinking, and promoting exploration during underthinking. Extensive experiments conducted on four models ranging from 0.5B to 32B, and across nine benchmarks in math reasoning, general question answering, and coding tasks demonstrate that ReBalance effectively reduces output redundancy while improving accuracy, offering a general, training-free, and plug-and-play strategy for efficient and robust LRM deployment. Code is available at https://github.com/yu-lin-li/ReBalance .

Effizientes Schließen durch ausgewogenes Denken

Efficient Reasoning with Balanced Thinking

Zusammenfassung

Support