ChatPaper.aiChatPaper

Thought-Augmented Policy Optimalisatie: Het overbruggen van externe begeleiding en interne capaciteiten

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

May 21, 2025
Auteurs: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI

Samenvatting

Versterkt leren (Reinforcement Learning, RL) is naar voren gekomen als een effectieve methode voor het trainen van redeneermodellen. Bestaande RL-benaderingen beïnvloeden echter doorgaans de uitvoerverdeling van het model in de richting van beloning-maximaliserende paden zonder externe kennis te introduceren. Dit beperkt hun verkenningcapaciteit en resulteert in een smallere grens van redeneervermogen in vergelijking met basismodellen. Om deze beperking aan te pakken, stellen we TAPO (Thought-Augmented Policy Optimization) voor, een nieuw framework dat RL versterkt door het integreren van externe hoogwaardige begeleiding ("denkpatronen"). Door gestructureerde denkpatronen adaptief te integreren tijdens de training, balanceert TAPO effectief tussen modelinterne verkenning en externe begeleidingsbenutting. Uitgebreide experimenten tonen aan dat onze aanpak GRPO aanzienlijk overtreft met 99% op AIME, 41% op AMC en 17% op Minerva Math. Opmerkelijk is dat deze hoogwaardige denkpatronen, geabstraheerd uit slechts 500 eerdere voorbeelden, effectief generaliseren over verschillende taken en modellen. Dit benadrukt het potentieel van TAPO voor bredere toepassingen over meerdere taken en domeinen. Onze verdere analyse toont aan dat het introduceren van externe begeleiding krachtige redeneermodellen oplevert met superieure uitlegbaarheid van inferentiegedrag en verbeterde uitvoerleesbaarheid.
English
Reinforcement learning (RL) has emerged as an effective method for training reasoning models. However, existing RL approaches typically bias the model's output distribution toward reward-maximizing paths without introducing external knowledge. This limits their exploration capacity and results in a narrower reasoning capability boundary compared to base models. To address this limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel framework that augments RL by incorporating external high-level guidance ("thought patterns"). By adaptively integrating structured thoughts during training, TAPO effectively balances model-internal exploration and external guidance exploitation. Extensive experiments show that our approach significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva Math. Notably, these high-level thought patterns, abstracted from only 500 prior samples, generalize effectively across various tasks and models. This highlights TAPO's potential for broader applications across multiple tasks and domains. Our further analysis reveals that introducing external guidance produces powerful reasoning models with superior explainability of inference behavior and enhanced output readability.
PDF142May 26, 2025