사고 강화 정책 최적화: 외부 지도와 내부 역량의 연결
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities
May 21, 2025
저자: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI
초록
강화 학습(Reinforcement Learning, RL)은 추론 모델을 훈련시키는 효과적인 방법으로 부상했습니다. 그러나 기존의 RL 접근법은 일반적으로 외부 지식을 도입하지 않고 모델의 출력 분포를 보상 극대화 경로로 편향시키는 경향이 있습니다. 이는 탐색 능력을 제한하고 기본 모델에 비해 더 좁은 추론 능력 경계를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 외부의 고수준 지침("사고 패턴")을 통합하여 RL을 보강하는 새로운 프레임워크인 TAPO(Thought-Augmented Policy Optimization)를 제안합니다. TAPO는 훈련 중에 구조화된 사고를 적응적으로 통합함으로써 모델 내부의 탐색과 외부 지침 활용 사이의 균형을 효과적으로 조정합니다. 광범위한 실험 결과, 우리의 접근법은 AIME에서 99%, AMC에서 41%, Minerva Math에서 17%로 GRPO를 크게 능가하는 것으로 나타났습니다. 특히, 단 500개의 이전 샘플에서 추상화된 이러한 고수준 사고 패턴은 다양한 작업과 모델에 걸쳐 효과적으로 일반화됩니다. 이는 TAPO가 여러 작업과 도메인에 걸쳐 더 넓은 적용 가능성을 가지고 있음을 강조합니다. 추가 분석 결과, 외부 지침을 도입하면 추론 행동의 우수한 설명 가능성과 향상된 출력 가독성을 갖춘 강력한 추론 모델이 생성되는 것으로 나타났습니다.
English
Reinforcement learning (RL) has emerged as an effective method for training
reasoning models. However, existing RL approaches typically bias the model's
output distribution toward reward-maximizing paths without introducing external
knowledge. This limits their exploration capacity and results in a narrower
reasoning capability boundary compared to base models. To address this
limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel
framework that augments RL by incorporating external high-level guidance
("thought patterns"). By adaptively integrating structured thoughts during
training, TAPO effectively balances model-internal exploration and external
guidance exploitation. Extensive experiments show that our approach
significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva
Math. Notably, these high-level thought patterns, abstracted from only 500
prior samples, generalize effectively across various tasks and models. This
highlights TAPO's potential for broader applications across multiple tasks and
domains. Our further analysis reveals that introducing external guidance
produces powerful reasoning models with superior explainability of inference
behavior and enhanced output readability.