ChatPaper.aiChatPaper

Deux Experts Suffisent pour Orienter la Pensée : Renforcer l'Effort Cognitif dans les Modèles de Raisonnement MoE Sans Formation Supplémentaire

Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

May 20, 2025
Auteurs: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
cs.AI

Résumé

Les architectures de type Mixture-of-Experts (MoE) intégrées dans les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) ont atteint des capacités de raisonnement impressionnantes en activant de manière sélective des experts pour faciliter des processus cognitifs structurés. Malgré des avancées notables, les modèles de raisonnement existants souffrent souvent d'inefficacités cognitives telles que la surréflexion et la sous-réflexion. Pour remédier à ces limitations, nous introduisons une nouvelle méthodologie de pilotage au moment de l'inférence, appelée Reinforcing Cognitive Experts (RICE), conçue pour améliorer les performances de raisonnement sans nécessiter d'entraînement supplémentaire ou d'heuristiques complexes. En exploitant l'information mutuelle normalisée point par point (nPMI), nous identifions systématiquement des experts spécialisés, appelés « experts cognitifs », qui orchestrent des opérations de raisonnement méta-niveau caractérisées par des tokens tels que « donc ». Les évaluations empiriques avec des LRMs basés sur MoE de pointe (DeepSeek-R1 et Qwen3-235B) sur des benchmarks rigoureux de raisonnement quantitatif et scientifique montrent des améliorations notables et cohérentes en termes de précision du raisonnement, d'efficacité cognitive et de généralisation inter-domaines. De manière cruciale, notre approche légère surpasse largement les techniques courantes de pilotage du raisonnement, telles que la conception de prompts et les contraintes de décodage, tout en préservant les compétences générales du modèle à suivre des instructions. Ces résultats mettent en évidence le renforcement des experts cognitifs comme une direction prometteuse, pratique et interprétable pour améliorer l'efficacité cognitive dans les modèles de raisonnement avancés.
English
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs) have achieved impressive reasoning capabilities by selectively activating experts to facilitate structured cognitive processes. Despite notable advances, existing reasoning models often suffer from cognitive inefficiencies like overthinking and underthinking. To address these limitations, we introduce a novel inference-time steering methodology called Reinforcing Cognitive Experts (RICE), designed to improve reasoning performance without additional training or complex heuristics. Leveraging normalized Pointwise Mutual Information (nPMI), we systematically identify specialized experts, termed ''cognitive experts'' that orchestrate meta-level reasoning operations characterized by tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs (DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning benchmarks demonstrate noticeable and consistent improvements in reasoning accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our lightweight approach substantially outperforms prevalent reasoning-steering techniques, such as prompt design and decoding constraints, while preserving the model's general instruction-following skills. These results highlight reinforcing cognitive experts as a promising, practical, and interpretable direction to enhance cognitive efficiency within advanced reasoning models.

Summary

AI-Generated Summary

PDF92May 21, 2025