Dos Expertos Son Todo lo que Necesitas para Dirigir el Pensamiento: Reforzando el Esfuerzo Cognitivo en Modelos de Razonamiento MoE Sin Entrenamiento Adicional
Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training
May 20, 2025
Autores: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
cs.AI
Resumen
Las arquitecturas Mixture-of-Experts (MoE) dentro de los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han logrado capacidades de razonamiento impresionantes al activar selectivamente expertos para facilitar procesos cognitivos estructurados. A pesar de avances notables, los modelos de razonamiento existentes a menudo sufren de ineficiencias cognitivas como el sobrepensamiento y el subpensamiento. Para abordar estas limitaciones, introducimos una novedosa metodología de dirección en tiempo de inferencia llamada Refuerzo de Expertos Cognitivos (RICE, por sus siglas en inglés), diseñada para mejorar el rendimiento del razonamiento sin necesidad de entrenamiento adicional o heurísticas complejas. Aprovechando la Información Mutua Puntual Normalizada (nPMI, por sus siglas en inglés), identificamos sistemáticamente expertos especializados, denominados "expertos cognitivos", que orquestan operaciones de razonamiento a nivel meta caracterizadas por tokens como "<think>". Las evaluaciones empíricas con LRMs basados en MoE líderes (DeepSeek-R1 y Qwen3-235B) en rigurosos puntos de referencia de razonamiento cuantitativo y científico demuestran mejoras notables y consistentes en la precisión del razonamiento, la eficiencia cognitiva y la generalización entre dominios. Es crucial destacar que nuestro enfoque ligero supera sustancialmente las técnicas prevalentes de dirección del razonamiento, como el diseño de indicaciones y las restricciones de decodificación, mientras preserva las habilidades generales del modelo para seguir instrucciones. Estos resultados resaltan el refuerzo de expertos cognitivos como una dirección prometedora, práctica e interpretable para mejorar la eficiencia cognitiva dentro de modelos avanzados de razonamiento.
English
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs)
have achieved impressive reasoning capabilities by selectively activating
experts to facilitate structured cognitive processes. Despite notable advances,
existing reasoning models often suffer from cognitive inefficiencies like
overthinking and underthinking. To address these limitations, we introduce a
novel inference-time steering methodology called Reinforcing Cognitive Experts
(RICE), designed to improve reasoning performance without additional training
or complex heuristics. Leveraging normalized Pointwise Mutual Information
(nPMI), we systematically identify specialized experts, termed ''cognitive
experts'' that orchestrate meta-level reasoning operations characterized by
tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs
(DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning
benchmarks demonstrate noticeable and consistent improvements in reasoning
accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our
lightweight approach substantially outperforms prevalent reasoning-steering
techniques, such as prompt design and decoding constraints, while preserving
the model's general instruction-following skills. These results highlight
reinforcing cognitive experts as a promising, practical, and interpretable
direction to enhance cognitive efficiency within advanced reasoning models.Summary
AI-Generated Summary