ChatPaper.aiChatPaper

Quando Continuar Pensando: Troca Adaptativa de Modos de Pensamento para Raciocínio Eficiente

When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning

May 21, 2025
Autores: Xiaoyun Zhang, Jingqing Ruan, Xing Ma, Yawen Zhu, Haodong Zhao, Hao Li, Jiansong Chen, Ke Zeng, Xunliang Cai
cs.AI

Resumo

Modelos de raciocínio de grande escala (LRMs) alcançam desempenho notável por meio de longas cadeias de raciocínio, mas frequentemente incorrem em sobrecarga computacional excessiva devido a raciocínios redundantes, especialmente em tarefas simples. Neste trabalho, quantificamos sistematicamente os limites superiores dos LRMs nos modos Pensamento Longo e Sem Pensamento, e descobrimos o fenômeno do "Mecanismo de Autorrecuperação Interna", onde os modelos implicitamente complementam o raciocínio durante a geração de respostas. Com base nessa percepção, propomos o Raciocínio de Autorrecuperação Adaptativa (ASRR), uma estrutura que suprime raciocínios desnecessários e permite a recuperação implícita. Ao introduzir a regulação de recompensa de comprimento baseada em precisão, o ASRR aloca esforço de raciocínio de forma adaptativa de acordo com a dificuldade do problema, alcançando alta eficiência com sacrifício de desempenho insignificante. Experimentos em múltiplos benchmarks e modelos mostram que, em comparação com o GRPO, o ASRR reduz o orçamento de raciocínio em até 32,5% (1,5B) e 25,7% (7B) com perda mínima de precisão (1,2% e 0,6% pass@1), e aumenta significativamente as taxas de inofensividade em benchmarks de segurança (até +21,7%). Nossos resultados destacam o potencial do ASRR para permitir raciocínio eficiente, adaptativo e mais seguro em LRMs.
English
Large reasoning models (LRMs) achieve remarkable performance via long reasoning chains, but often incur excessive computational overhead due to redundant reasoning, especially on simple tasks. In this work, we systematically quantify the upper bounds of LRMs under both Long-Thinking and No-Thinking modes, and uncover the phenomenon of "Internal Self-Recovery Mechanism" where models implicitly supplement reasoning during answer generation. Building on this insight, we propose Adaptive Self-Recovery Reasoning (ASRR), a framework that suppresses unnecessary reasoning and enables implicit recovery. By introducing accuracy-aware length reward regulation, ASRR adaptively allocates reasoning effort according to problem difficulty, achieving high efficiency with negligible performance sacrifice. Experiments across multiple benchmarks and models show that, compared with GRPO, ASRR reduces reasoning budget by up to 32.5% (1.5B) and 25.7% (7B) with minimal accuracy loss (1.2% and 0.6% pass@1), and significantly boosts harmless rates on safety benchmarks (up to +21.7%). Our results highlight the potential of ASRR for enabling efficient, adaptive, and safer reasoning in LRMs.
PDF232December 8, 2025