ChatPaper.aiChatPaper

Otimização de Políticas Aumentada por Pensamento: Conectando Orientação Externa e Capacidades Internas

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

May 21, 2025
Autores: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI

Resumo

O aprendizado por reforço (RL, do inglês Reinforcement Learning) surgiu como um método eficaz para treinar modelos de raciocínio. No entanto, as abordagens de RL existentes tendem a enviesar a distribuição de saída do modelo em direção a caminhos que maximizam a recompensa, sem introduzir conhecimento externo. Isso limita sua capacidade de exploração e resulta em um limite de capacidade de raciocínio mais restrito em comparação com os modelos base. Para superar essa limitação, propomos o TAPO (Thought-Augmented Policy Optimization), uma nova estrutura que amplia o RL ao incorporar orientações externas de alto nível ("padrões de pensamento"). Ao integrar de forma adaptativa pensamentos estruturados durante o treinamento, o TAPO equilibra efetivamente a exploração interna do modelo e a exploração de orientações externas. Experimentos extensivos mostram que nossa abordagem supera significativamente o GRPO em 99% no AIME, 41% no AMC e 17% no Minerva Math. Notavelmente, esses padrões de pensamento de alto nível, abstraídos de apenas 500 amostras anteriores, generalizam-se efetivamente em várias tarefas e modelos. Isso destaca o potencial do TAPO para aplicações mais amplas em múltiplas tarefas e domínios. Nossa análise adicional revela que a introdução de orientações externas produz modelos de raciocínio poderosos com superior explicabilidade do comportamento de inferência e maior legibilidade das saídas.
English
Reinforcement learning (RL) has emerged as an effective method for training reasoning models. However, existing RL approaches typically bias the model's output distribution toward reward-maximizing paths without introducing external knowledge. This limits their exploration capacity and results in a narrower reasoning capability boundary compared to base models. To address this limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel framework that augments RL by incorporating external high-level guidance ("thought patterns"). By adaptively integrating structured thoughts during training, TAPO effectively balances model-internal exploration and external guidance exploitation. Extensive experiments show that our approach significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva Math. Notably, these high-level thought patterns, abstracted from only 500 prior samples, generalize effectively across various tasks and models. This highlights TAPO's potential for broader applications across multiple tasks and domains. Our further analysis reveals that introducing external guidance produces powerful reasoning models with superior explainability of inference behavior and enhanced output readability.
PDF142May 26, 2025