¿Tu Modelo de Razonamiento Sabe Implícitamente Cuándo Dejar de Pensar?
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
February 9, 2026
Autores: Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang
cs.AI
Resumen
Los recientes avances en modelos de razonamiento a gran escala (LRM) han mejorado sustancialmente sus capacidades en tareas de razonamiento complejo mediante Cadenas Largas de Pensamiento (CoT). Sin embargo, este enfoque a menudo genera una redundancia sustancial, perjudicando la eficiencia computacional y causando retrasos significativos en aplicaciones en tiempo real. Estudios recientes demuestran que las cadenas de razonamiento más largas frecuentemente no se correlacionan con la corrección e incluso pueden ser perjudiciales para la precisión. En un análisis más profundo de este fenómeno, descubrimos y verificamos empíricamente, de manera sorprendente, que los LRM saben implícitamente cuándo es el momento adecuado para dejar de pensar, aunque esta capacidad queda oscurecida por los paradigmas de muestreo actuales. Motivados por esto, presentamos SAGE (Razonamiento Eficiente Guiado por Autoconciencia), un novedoso paradigma de muestreo que libera este potencial de razonamiento eficiente. Además, la integración de SAGE como muestreo mixto en el aprendizaje por refuerzo basado en grupos (SAGE-RL) permite a SAGE-RL incorporar eficazmente los patrones de razonamiento eficiente descubiertos por SAGE en la inferencia estándar pass@1, mejorando notablemente tanto la precisión como la eficiencia del razonamiento de los LRM en múltiples benchmarks matemáticos desafiantes.
English
Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.