ChatPaper.aiChatPaper

두 명의 전문가만으로도 사고 방향 설정 가능: 추가 학습 없이 MoE 추론 모델의 인지적 노력 강화

Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

May 20, 2025
저자: Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu
cs.AI

초록

대형 추론 모델(Large Reasoning Models, LRMs) 내의 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 구조화된 인지 과정을 촉진하기 위해 전문가를 선택적으로 활성화함으로써 인상적인 추론 능력을 달성해 왔다. 주목할 만한 발전에도 불구하고, 기존의 추론 모델들은 종종 과도한 사고(overthinking)와 사고 부족(underthinking)과 같은 인지 비효율성으로 고통받는다. 이러한 한계를 해결하기 위해, 우리는 추가적인 학습이나 복잡한 휴리스틱 없이 추론 성능을 향상시키기 위해 설계된 새로운 추론 시점 조정 방법론인 Reinforcing Cognitive Experts(RICE)를 소개한다. 정규화된 점별 상호 정보(normalized Pointwise Mutual Information, nPMI)를 활용하여, 우리는 ''따라서''와 같은 토큰으로 특징지어지는 메타 수준의 추론 작업을 조율하는 ''인지 전문가''라고 불리는 특화된 전문가를 체계적으로 식별한다. DeepSeek-R1 및 Qwen3-235B와 같은 선도적인 MoE 기반 LRM을 엄격한 정량적 및 과학적 추론 벤치마크에서 평가한 결과, 추론 정확도, 인지 효율성 및 교차 도메인 일반화에서 눈에 띄고 일관된 개선을 보여주었다. 무엇보다도, 우리의 경량화된 접근법은 프롬프트 설계 및 디코딩 제약과 같은 널리 사용되는 추론 조정 기술을 크게 능가하면서도 모델의 일반적인 지시 따르기 능력을 유지한다. 이러한 결과는 고급 추론 모델 내에서 인지 효율성을 향상시키기 위한 유망하고 실용적이며 해석 가능한 방향으로서 인지 전문가 강화의 잠재력을 강조한다.
English
Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs) have achieved impressive reasoning capabilities by selectively activating experts to facilitate structured cognitive processes. Despite notable advances, existing reasoning models often suffer from cognitive inefficiencies like overthinking and underthinking. To address these limitations, we introduce a novel inference-time steering methodology called Reinforcing Cognitive Experts (RICE), designed to improve reasoning performance without additional training or complex heuristics. Leveraging normalized Pointwise Mutual Information (nPMI), we systematically identify specialized experts, termed ''cognitive experts'' that orchestrate meta-level reasoning operations characterized by tokens like ''<think>''. Empirical evaluations with leading MoE-based LRMs (DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning benchmarks demonstrate noticeable and consistent improvements in reasoning accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our lightweight approach substantially outperforms prevalent reasoning-steering techniques, such as prompt design and decoding constraints, while preserving the model's general instruction-following skills. These results highlight reinforcing cognitive experts as a promising, practical, and interpretable direction to enhance cognitive efficiency within advanced reasoning models.

Summary

AI-Generated Summary

PDF92May 21, 2025