Twee Experts Zijn Genoeg om Denkprocessen te Sturen: Het Versterken van Cognitieve Inspanning in MoE-Redeneermodellen Zonder Extra Training
Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
May 20, 2025
Auteurs: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
cs.AI
Samenvatting
Mixture-of-Experts (MoE)-architecturen binnen Large Reasoning Models (LRMs)
hebben indrukwekkende redeneervaardigheden bereikt door experts selectief te
activeren om gestructureerde cognitieve processen te faciliteren. Ondanks
opmerkelijke vooruitgang lijden bestaande redeneermodellen vaak aan cognitieve
inefficiënties zoals overdrijven en onderdenken. Om deze beperkingen aan te
pakken, introduceren we een nieuwe inferentie-tijd-stuurmethodologie genaamd
Reinforcing Cognitive Experts (RICE), ontworpen om de redeneerprestaties te
verbeteren zonder aanvullende training of complexe heuristieken. Door gebruik
te maken van genormaliseerde Pointwise Mutual Information (nPMI) identificeren
we systematisch gespecialiseerde experts, genaamd ''cognitieve experts'', die
meta-niveau redeneeroperaties coördineren die worden gekenmerkt door tokens
zoals ''<think>''. Empirische evaluaties met toonaangevende MoE-gebaseerde LRMs
(DeepSeek-R1 en Qwen3-235B) op strenge kwantitatieve en wetenschappelijke
redeneerbenchmarks tonen aanmerkelijke en consistente verbeteringen in
redeneernauwkeurigheid, cognitieve efficiëntie en cross-domein generalisatie.
Cruciaal is dat onze lichtgewicht aanpak veelvoorkomende
redeneer-stuurtechnieken, zoals promptontwerp en decodeerbeperkingen, aanzienlijk
overtreft, terwijl de algemene instructievolgvaardigheden van het model behouden
blijven. Deze resultaten benadrukken het versterken van cognitieve experts als
een veelbelovende, praktische en interpreteerbare richting om de cognitieve
efficiëntie binnen geavanceerde redeneermodellen te verbeteren.
English
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs)
have achieved impressive reasoning capabilities by selectively activating
experts to facilitate structured cognitive processes. Despite notable advances,
existing reasoning models often suffer from cognitive inefficiencies like
overthinking and underthinking. To address these limitations, we introduce a
novel inference-time steering methodology called Reinforcing Cognitive Experts
(RICE), designed to improve reasoning performance without additional training
or complex heuristics. Leveraging normalized Pointwise Mutual Information
(nPMI), we systematically identify specialized experts, termed ''cognitive
experts'' that orchestrate meta-level reasoning operations characterized by
tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs
(DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning
benchmarks demonstrate noticeable and consistent improvements in reasoning
accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our
lightweight approach substantially outperforms prevalent reasoning-steering
techniques, such as prompt design and decoding constraints, while preserving
the model's general instruction-following skills. These results highlight
reinforcing cognitive experts as a promising, practical, and interpretable
direction to enhance cognitive efficiency within advanced reasoning models.Summary
AI-Generated Summary