Il tuo modello di ragionamento sa implicitamente quando smettere di pensare?

Abstract

I recenti progressi nei modelli di ragionamento su larga scala (LRM) hanno notevolmente migliorato le loro capacità nei compiti di ragionamento complesso attraverso le lunghe Catene di Pensiero (CoT). Tuttavia, questo approccio spesso si traduce in una sostanziale ridondanza, compromettendo l'efficienza computazionale e causando ritardi significativi nelle applicazioni in tempo reale. Studi recenti dimostrano che catene di ragionamento più lunghe sono spesso non correlate con la correttezza e possono persino essere dannose per l'accuratezza. In un'analisi più approfondita di questo fenomeno, scopriamo sorprendentemente e verifichiamo empiricamente che gli LRM sanno implicitamente quando è il momento opportuno di smettere di pensare, sebbene questa capacità sia oscurata dagli attuali paradigmi di campionamento. Motivati da ciò, introduciamo SAGE (Ragionamento Efficiente Guidato Auto-Consapevole), un nuovo paradigma di campionamento che libera questo potenziale di ragionamento efficiente. Inoltre, l'integrazione di SAGE come campionamento misto nel reinforcement learning basato su gruppi (SAGE-RL) consente a SAGE-RL di incorporare efficacemente gli schemi di ragionamento efficiente scoperti da SAGE nell'inferenza standard pass@1, migliorando notevolmente sia l'accuratezza che l'efficienza del ragionamento degli LRM su molteplici benchmark matematici complessi.

English

Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.

Il tuo modello di ragionamento sa implicitamente quando smettere di pensare?

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Abstract

Support