ChatPaper.aiChatPaper

Dois Especialistas São Tudo o que Você Precisa para Direcionar o Pensamento: Reforçando o Esforço Cognitivo em Modelos de Raciocínio MoE Sem Treinamento Adicional

Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

May 20, 2025
Autores: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
cs.AI

Resumo

Arquiteturas de Mistura de Especialistas (MoE) dentro de Modelos de Raciocínio de Grande Escala (LRMs) alcançaram capacidades impressionantes de raciocínio ao ativar seletivamente especialistas para facilitar processos cognitivos estruturados. Apesar de avanços notáveis, os modelos de raciocínio existentes frequentemente sofrem com ineficiências cognitivas, como "pensar demais" e "pensar de menos". Para abordar essas limitações, introduzimos uma nova metodologia de direcionamento em tempo de inferência chamada Reforço de Especialistas Cognitivos (RICE), projetada para melhorar o desempenho do raciocínio sem treinamento adicional ou heurísticas complexas. Utilizando a Informação Mútua Pontual Normalizada (nPMI), identificamos sistematicamente especialistas específicos, denominados "especialistas cognitivos", que orquestram operações de raciocínio em nível meta, caracterizadas por tokens como "<think>". Avaliações empíricas com LRMs baseados em MoE líderes (DeepSeek-R1 e Qwen3-235B) em benchmarks rigorosos de raciocínio quantitativo e científico demonstram melhorias perceptíveis e consistentes na precisão do raciocínio, eficiência cognitiva e generalização entre domínios. Crucialmente, nossa abordagem leve supera substancialmente técnicas prevalentes de direcionamento de raciocínio, como design de prompts e restrições de decodificação, enquanto preserva as habilidades gerais de seguir instruções do modelo. Esses resultados destacam o reforço de especialistas cognitivos como uma direção promissora, prática e interpretável para melhorar a eficiência cognitiva em modelos avançados de raciocínio.
English
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs) have achieved impressive reasoning capabilities by selectively activating experts to facilitate structured cognitive processes. Despite notable advances, existing reasoning models often suffer from cognitive inefficiencies like overthinking and underthinking. To address these limitations, we introduce a novel inference-time steering methodology called Reinforcing Cognitive Experts (RICE), designed to improve reasoning performance without additional training or complex heuristics. Leveraging normalized Pointwise Mutual Information (nPMI), we systematically identify specialized experts, termed ''cognitive experts'' that orchestrate meta-level reasoning operations characterized by tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs (DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning benchmarks demonstrate noticeable and consistent improvements in reasoning accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our lightweight approach substantially outperforms prevalent reasoning-steering techniques, such as prompt design and decoding constraints, while preserving the model's general instruction-following skills. These results highlight reinforcing cognitive experts as a promising, practical, and interpretable direction to enhance cognitive efficiency within advanced reasoning models.
PDF102December 16, 2025