Thought-Augmented Policy Optimalisatie: Het overbruggen van externe begeleiding en interne capaciteiten
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities
May 21, 2025
Auteurs: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI
Samenvatting
Versterkt leren (Reinforcement Learning, RL) is naar voren gekomen als een effectieve methode voor het trainen van redeneermodellen. Bestaande RL-benaderingen beïnvloeden echter doorgaans de uitvoerverdeling van het model in de richting van beloning-maximaliserende paden zonder externe kennis te introduceren. Dit beperkt hun verkenningcapaciteit en resulteert in een smallere grens van redeneervermogen in vergelijking met basismodellen. Om deze beperking aan te pakken, stellen we TAPO (Thought-Augmented Policy Optimization) voor, een nieuw framework dat RL versterkt door het integreren van externe hoogwaardige begeleiding ("denkpatronen"). Door gestructureerde denkpatronen adaptief te integreren tijdens de training, balanceert TAPO effectief tussen modelinterne verkenning en externe begeleidingsbenutting. Uitgebreide experimenten tonen aan dat onze aanpak GRPO aanzienlijk overtreft met 99% op AIME, 41% op AMC en 17% op Minerva Math. Opmerkelijk is dat deze hoogwaardige denkpatronen, geabstraheerd uit slechts 500 eerdere voorbeelden, effectief generaliseren over verschillende taken en modellen. Dit benadrukt het potentieel van TAPO voor bredere toepassingen over meerdere taken en domeinen. Onze verdere analyse toont aan dat het introduceren van externe begeleiding krachtige redeneermodellen oplevert met superieure uitlegbaarheid van inferentiegedrag en verbeterde uitvoerleesbaarheid.
English
Reinforcement learning (RL) has emerged as an effective method for training
reasoning models. However, existing RL approaches typically bias the model's
output distribution toward reward-maximizing paths without introducing external
knowledge. This limits their exploration capacity and results in a narrower
reasoning capability boundary compared to base models. To address this
limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel
framework that augments RL by incorporating external high-level guidance
("thought patterns"). By adaptively integrating structured thoughts during
training, TAPO effectively balances model-internal exploration and external
guidance exploitation. Extensive experiments show that our approach
significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva
Math. Notably, these high-level thought patterns, abstracted from only 500
prior samples, generalize effectively across various tasks and models. This
highlights TAPO's potential for broader applications across multiple tasks and
domains. Our further analysis reveals that introducing external guidance
produces powerful reasoning models with superior explainability of inference
behavior and enhanced output readability.