ChatPaper.aiChatPaper

Quand continuer à réfléchir : Commutation adaptative des modes de pensée pour un raisonnement efficace

When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning

May 21, 2025
Auteurs: Xiaoyun Zhang, Jingqing Ruan, Xing Ma, Yawen Zhu, Haodong Zhao, Hao Li, Jiansong Chen, Ke Zeng, Xunliang Cai
cs.AI

Résumé

Les grands modèles de raisonnement (LRMs) atteignent des performances remarquables grâce à des chaînes de raisonnement longues, mais engendrent souvent une surcharge computationnelle excessive en raison de raisonnements redondants, en particulier sur des tâches simples. Dans ce travail, nous quantifions systématiquement les limites supérieures des LRMs dans les modes Long-Thinking et No-Thinking, et mettons en lumière le phénomène de "Mécanisme d'Auto-Récupération Interne" où les modèles complètent implicitement leur raisonnement lors de la génération de réponses. En nous appuyant sur cette observation, nous proposons le Raisonnement d'Auto-Récupération Adaptatif (ASRR), un cadre qui supprime les raisonnements inutiles et permet une récupération implicite. En introduisant une régulation de récompense basée sur la longueur et la précision, ASRR alloue de manière adaptative l'effort de raisonnement en fonction de la difficulté du problème, atteignant ainsi une haute efficacité avec une perte de performance négligeable. Les expériences menées sur plusieurs benchmarks et modèles montrent que, comparé à GRPO, ASRR réduit le budget de raisonnement jusqu'à 32,5 % (1,5B) et 25,7 % (7B) avec une perte de précision minimale (1,2 % et 0,6 % pass@1), et améliore significativement les taux d'innocuité sur les benchmarks de sécurité (jusqu'à +21,7 %). Nos résultats soulignent le potentiel d'ASRR pour permettre un raisonnement efficace, adaptatif et plus sûr dans les LRMs.
English
Large reasoning models (LRMs) achieve remarkable performance via long reasoning chains, but often incur excessive computational overhead due to redundant reasoning, especially on simple tasks. In this work, we systematically quantify the upper bounds of LRMs under both Long-Thinking and No-Thinking modes, and uncover the phenomenon of "Internal Self-Recovery Mechanism" where models implicitly supplement reasoning during answer generation. Building on this insight, we propose Adaptive Self-Recovery Reasoning (ASRR), a framework that suppresses unnecessary reasoning and enables implicit recovery. By introducing accuracy-aware length reward regulation, ASRR adaptively allocates reasoning effort according to problem difficulty, achieving high efficiency with negligible performance sacrifice. Experiments across multiple benchmarks and models show that, compared with GRPO, ASRR reduces reasoning budget by up to 32.5% (1.5B) and 25.7% (7B) with minimal accuracy loss (1.2% and 0.6% pass@1), and significantly boosts harmless rates on safety benchmarks (up to +21.7%). Our results highlight the potential of ASRR for enabling efficient, adaptive, and safer reasoning in LRMs.

Summary

AI-Generated Summary

PDF202May 22, 2025