Weiß Ihr Denkmodell implizit, wann es mit dem Denken aufhören muss?

Zusammenfassung

Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) haben deren Fähigkeiten bei komplexen Reasoning-Aufgaben durch lange Denkketten (Chains of Thought, CoTs) erheblich verbessert. Dieser Ansatz führt jedoch oft zu erheblicher Redundanz, beeinträchtigt die Recheneffizienz und verursacht signifikante Verzögerungen in Echtzeitanwendungen. Jüngste Studien zeigen, dass längere Reasoning-Ketten häufig nicht mit der Korrektheit korrelieren und sich sogar nachteilig auf die Genauigkeit auswirken können. In einer tiefergehenden Analyse dieses Phänomens entdecken und verifizieren wir überraschenderweise empirisch, dass LRMs implizit wissen, wann der geeignete Zeitpunkt zum Aufhören des Denkprozesses ist, wobei diese Fähigkeit durch aktuelle Sampling-Paradigmen verdeckt wird. Motiviert durch diese Erkenntnis führen wir SAGE (Self-Aware Guided Efficient Reasoning) ein, ein neuartiges Sampling-Paradigma, das dieses effiziente Reasoning-Potenzial freisetzt. Darüber hinaus ermöglicht die Integration von SAGE als Mixed Sampling in gruppenbasiertes bestärkendes Lernen (SAGE-RL), dass SAGE-RL die durch SAGE entdeckten effizienten Reasoning-Muster effektiv in die Standard-pass@1-Inferenz einbindet, was die Reasoning-Genauigkeit und -Effizienz von LRMs über mehrere anspruchsvolle mathematische Benchmarks hinweg deutlich steigert.

English

Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.

Weiß Ihr Denkmodell implizit, wann es mit dem Denken aufhören muss?

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Zusammenfassung

Support