ChatPaper.aiChatPaper

Двух экспертов достаточно для управления мышлением: усиление когнитивных усилий в моделях рассуждений на основе смеси экспертов без дополнительного обучения

Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

May 20, 2025
Авторы: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
cs.AI

Аннотация

Архитектуры Mixture-of-Experts (MoE) в рамках крупных моделей рассуждений (Large Reasoning Models, LRMs) достигли впечатляющих способностей к рассуждению за счет избирательной активации экспертов, что способствует структурированным когнитивным процессам. Несмотря на значительные успехи, существующие модели рассуждений часто страдают от когнитивных неэффективностей, таких как чрезмерное или недостаточное обдумывание. Чтобы устранить эти ограничения, мы представляем новую методологию управления на этапе вывода, названную Reinforcing Cognitive Experts (RICE), которая призвана улучшить производительность рассуждений без дополнительного обучения или сложных эвристик. Используя нормализованную точечную взаимную информацию (nPMI), мы систематически идентифицируем специализированных экспертов, называемых «когнитивными экспертами», которые координируют метауровневые операции рассуждения, характеризуемые токенами, такими как «<think>». Эмпирические оценки с ведущими LRM на основе MoE (DeepSeek-R1 и Qwen3-235B) на строгих количественных и научных бенчмарках демонстрируют заметные и устойчивые улучшения в точности рассуждений, когнитивной эффективности и кросс-доменной обобщаемости. Важно отметить, что наш легковесный подход значительно превосходит распространенные методы управления рассуждениями, такие как проектирование промптов и ограничения декодирования, сохраняя при этом общие навыки модели по следованию инструкциям. Эти результаты подчеркивают усиление когнитивных экспертов как перспективное, практичное и интерпретируемое направление для повышения когнитивной эффективности в продвинутых моделях рассуждений.
English
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs) have achieved impressive reasoning capabilities by selectively activating experts to facilitate structured cognitive processes. Despite notable advances, existing reasoning models often suffer from cognitive inefficiencies like overthinking and underthinking. To address these limitations, we introduce a novel inference-time steering methodology called Reinforcing Cognitive Experts (RICE), designed to improve reasoning performance without additional training or complex heuristics. Leveraging normalized Pointwise Mutual Information (nPMI), we systematically identify specialized experts, termed ''cognitive experts'' that orchestrate meta-level reasoning operations characterized by tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs (DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning benchmarks demonstrate noticeable and consistent improvements in reasoning accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our lightweight approach substantially outperforms prevalent reasoning-steering techniques, such as prompt design and decoding constraints, while preserving the model's general instruction-following skills. These results highlight reinforcing cognitive experts as a promising, practical, and interpretable direction to enhance cognitive efficiency within advanced reasoning models.

Summary

AI-Generated Summary

PDF92May 21, 2025