ChatPaper.aiChatPaper

思考の方向付けには2人の専門家で十分:追加学習なしでMoE推論モデルの認知努力を強化

Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

May 20, 2025
著者: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
cs.AI

要旨

大規模推論モデル(LRM)におけるMixture-of-Experts(MoE)アーキテクチャは、専門家を選択的に活性化することで構造化された認知プロセスを促進し、印象的な推論能力を実現してきた。しかし、既存の推論モデルは、過剰思考や思考不足といった認知的な非効率性に悩まされることが多い。これらの課題を解決するため、我々は「Reinforcing Cognitive Experts(RICE)」と呼ばれる新しい推論時制御手法を提案する。この手法は、追加のトレーニングや複雑なヒューリスティックを必要とせずに、推論性能を向上させることを目的としている。正規化されたPointwise Mutual Information(nPMI)を活用し、「認知専門家」と呼ばれる特殊化された専門家を体系的に特定する。これらの専門家は、「<think>」のようなトークンによって特徴づけられるメタレベルの推論操作を調整する。主要なMoEベースのLRM(DeepSeek-R1およびQwen3-235B)を用いた厳密な定量的および科学的推論ベンチマークでの実証評価により、推論精度、認知効率、クロスドメイン汎化能力において顕著かつ一貫した改善が示された。重要なことに、この軽量なアプローチは、プロンプト設計やデコード制約といった一般的な推論制御技術を大幅に上回りつつ、モデルの一般的な指示追従能力を維持する。これらの結果は、認知専門家の強化が、高度な推論モデルにおける認知効率を向上させるための有望で実用的かつ解釈可能な方向性であることを強調している。
English
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs) have achieved impressive reasoning capabilities by selectively activating experts to facilitate structured cognitive processes. Despite notable advances, existing reasoning models often suffer from cognitive inefficiencies like overthinking and underthinking. To address these limitations, we introduce a novel inference-time steering methodology called Reinforcing Cognitive Experts (RICE), designed to improve reasoning performance without additional training or complex heuristics. Leveraging normalized Pointwise Mutual Information (nPMI), we systematically identify specialized experts, termed ''cognitive experts'' that orchestrate meta-level reasoning operations characterized by tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs (DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning benchmarks demonstrate noticeable and consistent improvements in reasoning accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our lightweight approach substantially outperforms prevalent reasoning-steering techniques, such as prompt design and decoding constraints, while preserving the model's general instruction-following skills. These results highlight reinforcing cognitive experts as a promising, practical, and interpretable direction to enhance cognitive efficiency within advanced reasoning models.

Summary

AI-Generated Summary

PDF92May 21, 2025