Due Esperti Sono Tutto Ciò Che Serve per Guidare il Pensiero: Rafforzare lo Sforzo Cognitivo nei Modelli di Ragionamento MoE Senza Ulteriore Addestramento
Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
May 20, 2025
Autori: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
cs.AI
Abstract
Le architetture Mixture-of-Experts (MoE) all'interno dei Large Reasoning Models (LRM) hanno raggiunto capacità di ragionamento impressionanti attivando selettivamente esperti per facilitare processi cognitivi strutturati. Nonostante i notevoli progressi, i modelli di ragionamento esistenti spesso soffrono di inefficienze cognitive come il sovrapensiero e il sottopensiero. Per affrontare queste limitazioni, introduciamo una nuova metodologia di guida al momento dell'inferenza chiamata Reinforcing Cognitive Experts (RICE), progettata per migliorare le prestazioni di ragionamento senza ulteriore addestramento o euristiche complesse. Sfruttando la Pointwise Mutual Information normalizzata (nPMI), identifichiamo sistematicamente esperti specializzati, denominati "esperti cognitivi", che orchestrano operazioni di ragionamento a livello meta caratterizzate da token come "<think>". Valutazioni empiriche con i principali LRM basati su MoE (DeepSeek-R1 e Qwen3-235B) su benchmark rigorosi di ragionamento quantitativo e scientifico dimostrano miglioramenti evidenti e consistenti nell'accuratezza del ragionamento, nell'efficienza cognitiva e nella generalizzazione cross-dominio. In modo cruciale, il nostro approccio leggero supera sostanzialmente le tecniche prevalenti di guida del ragionamento, come il design dei prompt e i vincoli di decodifica, preservando al contempo le capacità generali del modello di seguire le istruzioni. Questi risultati evidenziano il rafforzamento degli esperti cognitivi come una direzione promettente, pratica e interpretabile per migliorare l'efficienza cognitiva all'interno di modelli di ragionamento avanzati.
English
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs)
have achieved impressive reasoning capabilities by selectively activating
experts to facilitate structured cognitive processes. Despite notable advances,
existing reasoning models often suffer from cognitive inefficiencies like
overthinking and underthinking. To address these limitations, we introduce a
novel inference-time steering methodology called Reinforcing Cognitive Experts
(RICE), designed to improve reasoning performance without additional training
or complex heuristics. Leveraging normalized Pointwise Mutual Information
(nPMI), we systematically identify specialized experts, termed ''cognitive
experts'' that orchestrate meta-level reasoning operations characterized by
tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs
(DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning
benchmarks demonstrate noticeable and consistent improvements in reasoning
accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our
lightweight approach substantially outperforms prevalent reasoning-steering
techniques, such as prompt design and decoding constraints, while preserving
the model's general instruction-following skills. These results highlight
reinforcing cognitive experts as a promising, practical, and interpretable
direction to enhance cognitive efficiency within advanced reasoning models.