ChatPaper.aiChatPaper

Thought-Augmented Policy Optimization: Überbrückung externer Anleitung und interner Fähigkeiten

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

May 21, 2025
Autoren: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI

Zusammenfassung

Reinforcement Learning (RL) hat sich als effektive Methode zur Schulung von Reasoning-Modellen etabliert. Allerdings neigen bestehende RL-Ansätze typischerweise dazu, die Ausgabeverteilung des Modells auf belohnungsmaximierende Pfade zu verzerren, ohne externes Wissen einzubeziehen. Dies schränkt ihre Explorationsfähigkeit ein und führt zu einer engeren Reasoning-Fähigkeitsgrenze im Vergleich zu Basismodellen. Um diese Einschränkung zu überwinden, schlagen wir TAPO (Thought-Augmented Policy Optimization) vor, ein neuartiges Framework, das RL durch die Einbindung externer, hochrangiger Leitlinien („Denkmuster“) erweitert. Durch die adaptive Integration strukturierter Denkmuster während des Trainings balanciert TAPO effektiv die interne Exploration des Modells und die Nutzung externer Leitlinien. Umfangreiche Experimente zeigen, dass unser Ansatz GRPO um 99 % auf AIME, 41 % auf AMC und 17 % auf Minerva Math übertrifft. Bemerkenswerterweise generalisieren diese hochrangigen Denkmuster, die aus nur 500 vorherigen Beispielen abstrahiert wurden, effektiv über verschiedene Aufgaben und Modelle hinweg. Dies unterstreicht das Potenzial von TAPO für breitere Anwendungen in verschiedenen Aufgaben und Domänen. Unsere weitere Analyse zeigt, dass die Einführung externer Leitlinien leistungsstarke Reasoning-Modelle mit überlegener Erklärbarkeit des Inferenzverhaltens und verbesserter Lesbarkeit der Ausgaben hervorbringt.
English
Reinforcement learning (RL) has emerged as an effective method for training reasoning models. However, existing RL approaches typically bias the model's output distribution toward reward-maximizing paths without introducing external knowledge. This limits their exploration capacity and results in a narrower reasoning capability boundary compared to base models. To address this limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel framework that augments RL by incorporating external high-level guidance ("thought patterns"). By adaptively integrating structured thoughts during training, TAPO effectively balances model-internal exploration and external guidance exploitation. Extensive experiments show that our approach significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva Math. Notably, these high-level thought patterns, abstracted from only 500 prior samples, generalize effectively across various tasks and models. This highlights TAPO's potential for broader applications across multiple tasks and domains. Our further analysis reveals that introducing external guidance produces powerful reasoning models with superior explainability of inference behavior and enhanced output readability.

Summary

AI-Generated Summary

PDF142May 26, 2025