Votre modèle de raisonnement sait-il implicitement quand arrêter de réfléchir ?

Résumé

Les récentes avancées des grands modèles de raisonnement (LRM) ont considérablement amélioré leurs capacités sur les tâches de raisonnement complexe grâce aux longues chaînes de raisonnement (CoT). Cependant, cette approche génère souvent une redondance substantielle, nuisant à l'efficacité computationnelle et causant des délais significatifs dans les applications en temps réel. Des études récentes montrent que des chaînes de raisonnement plus longues sont souvent non corrélées avec l'exactitude et peuvent même nuire à la précision. Dans une analyse plus approfondie de ce phénomène, nous découvrons et vérifions empiriquement, de manière surprenante, que les LRM savent implicitement quand il est approprié d'arrêter de réfléchir, bien que cette capacité soit masquée par les paradigmes d'échantillonnage actuels. Motivés par cette constatation, nous introduisons SAGE (Raisonnement Efficace Guidé par Auto-conscience), un nouveau paradigme d'échantillonnage qui libère ce potentiel de raisonnement efficace. De plus, l'intégration de SAGE en tant qu'échantillonnage mixte dans l'apprentissage par renforcement par groupes (SAGE-RL) permet à SAGE-RL d'incorporer efficacement les schémas de raisonnement efficaces découverts par SAGE dans l'inférence standard pass@1, améliorant ainsi notablement à la fois la précision du raisonnement et l'efficacité des LRM sur plusieurs benchmarks mathématiques exigeants.

English

Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.

Votre modèle de raisonnement sait-il implicitement quand arrêter de réfléchir ?

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Résumé

Support