Dos Expertos Son Todo lo que Necesitas para Dirigir el Pensamiento: Reforzando el Esfuerzo Cognitivo en Modelos de Razonamiento MoE Sin Entrenamiento Adicional

Resumen

Las arquitecturas Mixture-of-Experts (MoE) dentro de los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han logrado capacidades de razonamiento impresionantes al activar selectivamente expertos para facilitar procesos cognitivos estructurados. A pesar de avances notables, los modelos de razonamiento existentes a menudo sufren de ineficiencias cognitivas como el sobrepensamiento y el subpensamiento. Para abordar estas limitaciones, introducimos una novedosa metodología de dirección en tiempo de inferencia llamada Refuerzo de Expertos Cognitivos (RICE, por sus siglas en inglés), diseñada para mejorar el rendimiento del razonamiento sin necesidad de entrenamiento adicional o heurísticas complejas. Aprovechando la Información Mutua Puntual Normalizada (nPMI, por sus siglas en inglés), identificamos sistemáticamente expertos especializados, denominados "expertos cognitivos", que orquestan operaciones de razonamiento a nivel meta caracterizadas por tokens como "<think>". Las evaluaciones empíricas con LRMs basados en MoE líderes (DeepSeek-R1 y Qwen3-235B) en rigurosos puntos de referencia de razonamiento cuantitativo y científico demuestran mejoras notables y consistentes en la precisión del razonamiento, la eficiencia cognitiva y la generalización entre dominios. Es crucial destacar que nuestro enfoque ligero supera sustancialmente las técnicas prevalentes de dirección del razonamiento, como el diseño de indicaciones y las restricciones de decodificación, mientras preserva las habilidades generales del modelo para seguir instrucciones. Estos resultados resaltan el refuerzo de expertos cognitivos como una dirección prometedora, práctica e interpretable para mejorar la eficiencia cognitiva dentro de modelos avanzados de razonamiento.

English

Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs) have achieved impressive reasoning capabilities by selectively activating experts to facilitate structured cognitive processes. Despite notable advances, existing reasoning models often suffer from cognitive inefficiencies like overthinking and underthinking. To address these limitations, we introduce a novel inference-time steering methodology called Reinforcing Cognitive Experts (RICE), designed to improve reasoning performance without additional training or complex heuristics. Leveraging normalized Pointwise Mutual Information (nPMI), we systematically identify specialized experts, termed ''cognitive experts'' that orchestrate meta-level reasoning operations characterized by tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs (DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning benchmarks demonstrate noticeable and consistent improvements in reasoning accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our lightweight approach substantially outperforms prevalent reasoning-steering techniques, such as prompt design and decoding constraints, while preserving the model's general instruction-following skills. These results highlight reinforcing cognitive experts as a promising, practical, and interpretable direction to enhance cognitive efficiency within advanced reasoning models.

Dos Expertos Son Todo lo que Necesitas para Dirigir el Pensamiento: Reforzando el Esfuerzo Cognitivo en Modelos de Razonamiento MoE Sin Entrenamiento Adicional

Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

Resumen

Support