Ottimizzazione delle Politiche Aumentata dal Pensiero: Colmare il Divario tra Guida Esterna e Capacità Interne
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities
May 21, 2025
Autori: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI
Abstract
L'apprendimento per rinforzo (Reinforcement Learning, RL) si è affermato come un metodo efficace per addestrare modelli di ragionamento. Tuttavia, gli approcci RL esistenti tendono a distorcere la distribuzione di output del modello verso percorsi che massimizzano la ricompensa senza introdurre conoscenze esterne. Ciò limita la loro capacità di esplorazione e porta a un confine di ragionamento più ristretto rispetto ai modelli di base. Per affrontare questa limitazione, proponiamo TAPO (Thought-Augmented Policy Optimization), un nuovo framework che potenzia l'RL incorporando una guida esterna di alto livello ("pattern di pensiero"). Integrando in modo adattivo pensieri strutturati durante l'addestramento, TAPO bilancia efficacemente l'esplorazione interna del modello e lo sfruttamento della guida esterna. Esperimenti estensivi dimostrano che il nostro approccio supera significativamente GRPO del 99% su AIME, del 41% su AMC e del 17% su Minerva Math. È degno di nota che questi pattern di pensiero di alto livello, astratti da soli 500 campioni precedenti, si generalizzano efficacemente su vari compiti e modelli. Ciò evidenzia il potenziale di TAPO per applicazioni più ampie in diversi compiti e domini. La nostra ulteriore analisi rivela che l'introduzione di una guida esterna produce modelli di ragionamento potenti con una superiore spiegabilità del comportamento inferenziale e una migliore leggibilità degli output.
English
Reinforcement learning (RL) has emerged as an effective method for training
reasoning models. However, existing RL approaches typically bias the model's
output distribution toward reward-maximizing paths without introducing external
knowledge. This limits their exploration capacity and results in a narrower
reasoning capability boundary compared to base models. To address this
limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel
framework that augments RL by incorporating external high-level guidance
("thought patterns"). By adaptively integrating structured thoughts during
training, TAPO effectively balances model-internal exploration and external
guidance exploitation. Extensive experiments show that our approach
significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva
Math. Notably, these high-level thought patterns, abstracted from only 500
prior samples, generalize effectively across various tasks and models. This
highlights TAPO's potential for broader applications across multiple tasks and
domains. Our further analysis reveals that introducing external guidance
produces powerful reasoning models with superior explainability of inference
behavior and enhanced output readability.