Seu Modelo de Raciocínio Sabe Implicitamente Quando Parar de Pensar?
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
February 9, 2026
Autores: Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang
cs.AI
Resumo
Os recentes avanços nos grandes modelos de raciocínio (LRMs) têm melhorado significativamente suas capacidades em tarefas de raciocínio complexo por meio de Longas Cadeias de Pensamento (CoTs). No entanto, essa abordagem frequentemente resulta em substancial redundância, prejudicando a eficiência computacional e causando atrasos significativos em aplicações em tempo real. Estudos recentes mostram que cadeias de raciocínio mais longas estão frequentemente desconectadas da correção e podem até ser prejudiciais à precisão. Numa análise mais aprofundada deste fenômeno, descobrimos surpreendentemente e verificamos empiricamente que os LRMs sabem implicitamente o momento adequado para parar de pensar, embora esta capacidade seja obscurecida pelos paradigmas de amostragem atuais. Motivados por isso, introduzimos o SAGE (Raciocínio Eficiente Guiado por Autoconsciência), um novo paradigma de amostragem que liberta este potencial de raciocínio eficiente. Além disso, a integração do SAGE como amostragem mista no aprendizado por reforço baseado em grupo (SAGE-RL) permite que o SAGE-RL incorpore efetivamente os padrões de raciocínio eficiente descobertos pelo SAGE na inferência padrão pass@1, melhorando marcadamente tanto a precisão quanto a eficiência do raciocínio dos LRMs em vários benchmarks matemáticos desafiadores.
English
Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.