ChatPaper.aiChatPaper

いつ思考を継続すべきか:効率的な推論のための適応的思考モード切り替え

When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning

May 21, 2025
著者: Xiaoyun Zhang, Jingqing Ruan, Xing Ma, Yawen Zhu, Haodong Zhao, Hao Li, Jiansong Chen, Ke Zeng, Xunliang Cai
cs.AI

要旨

大規模推論モデル(LRM)は、長い推論チェーンを通じて顕著な性能を発揮しますが、特に単純なタスクにおいて冗長な推論が原因で過剰な計算コストを招くことがしばしばあります。本研究では、LRMの上限を「ロングシンキング」モードと「ノーシンキング」モードの両方で体系的に定量化し、モデルが回答生成中に暗黙的に推論を補完する「内部自己回復メカニズム」の現象を明らかにしました。この知見に基づいて、不要な推論を抑制し、暗黙的な回復を可能にする適応型自己回復推論(ASRR)フレームワークを提案します。精度を意識した長さ報酬調整を導入することで、ASRRは問題の難易度に応じて推論努力を適応的に割り当て、性能の低下を最小限に抑えつつ高い効率性を実現します。複数のベンチマークとモデルにわたる実験では、GRPOと比較して、ASRRは推論予算を最大32.5%(1.5B)および25.7%(7B)削減し、最小限の精度損失(1.2%および0.6% pass@1)で済み、安全性ベンチマークでの無害率を大幅に向上させました(最大+21.7%)。これらの結果は、ASRRがLRMにおいて効率的で適応的かつ安全な推論を可能にする潜在能力を強調しています。
English
Large reasoning models (LRMs) achieve remarkable performance via long reasoning chains, but often incur excessive computational overhead due to redundant reasoning, especially on simple tasks. In this work, we systematically quantify the upper bounds of LRMs under both Long-Thinking and No-Thinking modes, and uncover the phenomenon of "Internal Self-Recovery Mechanism" where models implicitly supplement reasoning during answer generation. Building on this insight, we propose Adaptive Self-Recovery Reasoning (ASRR), a framework that suppresses unnecessary reasoning and enables implicit recovery. By introducing accuracy-aware length reward regulation, ASRR adaptively allocates reasoning effort according to problem difficulty, achieving high efficiency with negligible performance sacrifice. Experiments across multiple benchmarks and models show that, compared with GRPO, ASRR reduces reasoning budget by up to 32.5% (1.5B) and 25.7% (7B) with minimal accuracy loss (1.2% and 0.6% pass@1), and significantly boosts harmless rates on safety benchmarks (up to +21.7%). Our results highlight the potential of ASRR for enabling efficient, adaptive, and safer reasoning in LRMs.

Summary

AI-Generated Summary

PDF202May 22, 2025