ChatPaper.aiChatPaper

Ottimizzazione delle Politiche Aumentata dal Pensiero: Colmare il Divario tra Guida Esterna e Capacità Interne

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

May 21, 2025
Autori: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI

Abstract

L'apprendimento per rinforzo (Reinforcement Learning, RL) si è affermato come un metodo efficace per addestrare modelli di ragionamento. Tuttavia, gli approcci RL esistenti tendono a distorcere la distribuzione di output del modello verso percorsi che massimizzano la ricompensa senza introdurre conoscenze esterne. Ciò limita la loro capacità di esplorazione e porta a un confine di ragionamento più ristretto rispetto ai modelli di base. Per affrontare questa limitazione, proponiamo TAPO (Thought-Augmented Policy Optimization), un nuovo framework che potenzia l'RL incorporando una guida esterna di alto livello ("pattern di pensiero"). Integrando in modo adattivo pensieri strutturati durante l'addestramento, TAPO bilancia efficacemente l'esplorazione interna del modello e lo sfruttamento della guida esterna. Esperimenti estensivi dimostrano che il nostro approccio supera significativamente GRPO del 99% su AIME, del 41% su AMC e del 17% su Minerva Math. È degno di nota che questi pattern di pensiero di alto livello, astratti da soli 500 campioni precedenti, si generalizzano efficacemente su vari compiti e modelli. Ciò evidenzia il potenziale di TAPO per applicazioni più ampie in diversi compiti e domini. La nostra ulteriore analisi rivela che l'introduzione di una guida esterna produce modelli di ragionamento potenti con una superiore spiegabilità del comportamento inferenziale e una migliore leggibilità degli output.
English
Reinforcement learning (RL) has emerged as an effective method for training reasoning models. However, existing RL approaches typically bias the model's output distribution toward reward-maximizing paths without introducing external knowledge. This limits their exploration capacity and results in a narrower reasoning capability boundary compared to base models. To address this limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel framework that augments RL by incorporating external high-level guidance ("thought patterns"). By adaptively integrating structured thoughts during training, TAPO effectively balances model-internal exploration and external guidance exploitation. Extensive experiments show that our approach significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva Math. Notably, these high-level thought patterns, abstracted from only 500 prior samples, generalize effectively across various tasks and models. This highlights TAPO's potential for broader applications across multiple tasks and domains. Our further analysis reveals that introducing external guidance produces powerful reasoning models with superior explainability of inference behavior and enhanced output readability.
PDF142May 26, 2025