ChatPaper.aiChatPaper

Optimisation des politiques par renforcement de la pensée : Relier les conseils externes et les capacités internes

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

May 21, 2025
Auteurs: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI

Résumé

L'apprentissage par renforcement (RL) s'est imposé comme une méthode efficace pour entraîner des modèles de raisonnement. Cependant, les approches RL existantes biaisent généralement la distribution des sorties du modèle vers des chemins maximisant la récompense, sans introduire de connaissances externes. Cela limite leur capacité d'exploration et aboutit à une frontière de raisonnement plus étroite par rapport aux modèles de base. Pour pallier cette limitation, nous proposons TAPO (Thought-Augmented Policy Optimization), un cadre novateur qui enrichit le RL en intégrant des guidages externes de haut niveau ("schémas de pensée"). En intégrant de manière adaptative des pensées structurées pendant l'entraînement, TAPO équilibre efficacement l'exploration interne du modèle et l'exploitation des guidages externes. Des expériences approfondies montrent que notre approche surpasse significativement GRPO de 99 % sur AIME, 41 % sur AMC et 17 % sur Minerva Math. Il est à noter que ces schémas de pensée de haut niveau, abstraits à partir de seulement 500 échantillons préalables, se généralisent efficacement à travers diverses tâches et modèles. Cela met en lumière le potentiel de TAPO pour des applications plus larges dans de multiples tâches et domaines. Notre analyse approfondie révèle que l'introduction de guidages externes produit des modèles de raisonnement puissants, dotés d'une explication supérieure du comportement d'inférence et d'une meilleure lisibilité des sorties.
English
Reinforcement learning (RL) has emerged as an effective method for training reasoning models. However, existing RL approaches typically bias the model's output distribution toward reward-maximizing paths without introducing external knowledge. This limits their exploration capacity and results in a narrower reasoning capability boundary compared to base models. To address this limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel framework that augments RL by incorporating external high-level guidance ("thought patterns"). By adaptively integrating structured thoughts during training, TAPO effectively balances model-internal exploration and external guidance exploitation. Extensive experiments show that our approach significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva Math. Notably, these high-level thought patterns, abstracted from only 500 prior samples, generalize effectively across various tasks and models. This highlights TAPO's potential for broader applications across multiple tasks and domains. Our further analysis reveals that introducing external guidance produces powerful reasoning models with superior explainability of inference behavior and enhanced output readability.

Summary

AI-Generated Summary

PDF142May 26, 2025