思考の方向付けには2人の専門家で十分:追加学習なしでMoE推論モデルの認知努力を強化
Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
May 20, 2025
著者: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
cs.AI
要旨
大規模推論モデル(LRM)におけるMixture-of-Experts(MoE)アーキテクチャは、専門家を選択的に活性化することで構造化された認知プロセスを促進し、印象的な推論能力を実現してきた。しかし、既存の推論モデルは、過剰思考や思考不足といった認知的な非効率性に悩まされることが多い。これらの課題を解決するため、我々は「Reinforcing Cognitive Experts(RICE)」と呼ばれる新しい推論時制御手法を提案する。この手法は、追加のトレーニングや複雑なヒューリスティックを必要とせずに、推論性能を向上させることを目的としている。正規化されたPointwise Mutual Information(nPMI)を活用し、「認知専門家」と呼ばれる特殊化された専門家を体系的に特定する。これらの専門家は、「<think>」のようなトークンによって特徴づけられるメタレベルの推論操作を調整する。主要なMoEベースのLRM(DeepSeek-R1およびQwen3-235B)を用いた厳密な定量的および科学的推論ベンチマークでの実証評価により、推論精度、認知効率、クロスドメイン汎化能力において顕著かつ一貫した改善が示された。重要なことに、この軽量なアプローチは、プロンプト設計やデコード制約といった一般的な推論制御技術を大幅に上回りつつ、モデルの一般的な指示追従能力を維持する。これらの結果は、認知専門家の強化が、高度な推論モデルにおける認知効率を向上させるための有望で実用的かつ解釈可能な方向性であることを強調している。
English
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs)
have achieved impressive reasoning capabilities by selectively activating
experts to facilitate structured cognitive processes. Despite notable advances,
existing reasoning models often suffer from cognitive inefficiencies like
overthinking and underthinking. To address these limitations, we introduce a
novel inference-time steering methodology called Reinforcing Cognitive Experts
(RICE), designed to improve reasoning performance without additional training
or complex heuristics. Leveraging normalized Pointwise Mutual Information
(nPMI), we systematically identify specialized experts, termed ''cognitive
experts'' that orchestrate meta-level reasoning operations characterized by
tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs
(DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning
benchmarks demonstrate noticeable and consistent improvements in reasoning
accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our
lightweight approach substantially outperforms prevalent reasoning-steering
techniques, such as prompt design and decoding constraints, while preserving
the model's general instruction-following skills. These results highlight
reinforcing cognitive experts as a promising, practical, and interpretable
direction to enhance cognitive efficiency within advanced reasoning models.Summary
AI-Generated Summary