Zwei Experten reichen aus, um das Denken zu lenken: Verstärkung kognitiver Anstrengung in MoE-Reasoning-Modellen ohne zusätzliches Training
Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
May 20, 2025
Autoren: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
cs.AI
Zusammenfassung
Mixture-of-Experts (MoE)-Architekturen in Large Reasoning Models (LRMs) haben beeindruckende Fähigkeiten im Bereich des logischen Denkens erreicht, indem sie gezielt Experten aktivieren, um strukturierte kognitive Prozesse zu ermöglichen. Trotz bemerkenswerter Fortschritte leiden bestehende Reasoning-Modelle oft unter kognitiven Ineffizienzen wie Überdenken und Unterdenken. Um diese Einschränkungen zu adressieren, führen wir eine neuartige Inferenzzeit-Steuerungsmethode namens Reinforcing Cognitive Experts (RICE) ein, die darauf abzielt, die Reasoning-Leistung ohne zusätzliches Training oder komplexe Heuristiken zu verbessern. Durch die Nutzung von normalisierter Pointwise Mutual Information (nPMI) identifizieren wir systematisch spezialisierte Experten, sogenannte „kognitive Experten“, die Meta-Level-Reasoning-Operationen orchestrieren, die durch Tokens wie „<think>“ charakterisiert sind. Empirische Auswertungen mit führenden MoE-basierten LRMs (DeepSeek-R1 und Qwen3-235B) auf strengen quantitativen und wissenschaftlichen Reasoning-Benchmarks zeigen deutliche und konsistente Verbesserungen in der Reasoning-Genauigkeit, kognitiven Effizienz und domänenübergreifenden Generalisierung. Entscheidend ist, dass unser leichtgewichtiger Ansatz gängige Reasoning-Steuerungstechniken wie Prompt-Design und Decoding-Einschränkungen deutlich übertrifft, während gleichzeitig die allgemeinen Anweisungsbefolgungskompetenzen des Modells erhalten bleiben. Diese Ergebnisse unterstreichen die Verstärkung kognitiver Experten als eine vielversprechende, praktische und interpretierbare Richtung zur Verbesserung der kognitiven Effizienz in fortschrittlichen Reasoning-Modellen.
English
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs)
have achieved impressive reasoning capabilities by selectively activating
experts to facilitate structured cognitive processes. Despite notable advances,
existing reasoning models often suffer from cognitive inefficiencies like
overthinking and underthinking. To address these limitations, we introduce a
novel inference-time steering methodology called Reinforcing Cognitive Experts
(RICE), designed to improve reasoning performance without additional training
or complex heuristics. Leveraging normalized Pointwise Mutual Information
(nPMI), we systematically identify specialized experts, termed ''cognitive
experts'' that orchestrate meta-level reasoning operations characterized by
tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs
(DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning
benchmarks demonstrate noticeable and consistent improvements in reasoning
accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our
lightweight approach substantially outperforms prevalent reasoning-steering
techniques, such as prompt design and decoding constraints, while preserving
the model's general instruction-following skills. These results highlight
reinforcing cognitive experts as a promising, practical, and interpretable
direction to enhance cognitive efficiency within advanced reasoning models.Summary
AI-Generated Summary