Optimización de Políticas Aumentada por Pensamiento: Conectando la Guía Externa con las Capacidades Internas
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities
May 21, 2025
Autores: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha surgido como un método efectivo para entrenar modelos de razonamiento. Sin embargo, los enfoques de RL existentes suelen sesgar la distribución de salida del modelo hacia caminos que maximizan la recompensa sin incorporar conocimiento externo. Esto limita su capacidad de exploración y resulta en un límite de capacidad de razonamiento más estrecho en comparación con los modelos base. Para abordar esta limitación, proponemos TAPO (Optimización de Política Aumentada con Pensamiento), un marco novedoso que aumenta el RL incorporando orientación externa de alto nivel ("patrones de pensamiento"). Al integrar de manera adaptativa pensamientos estructurados durante el entrenamiento, TAPO equilibra eficazmente la exploración interna del modelo y la explotación de la orientación externa. Experimentos extensos muestran que nuestro enfoque supera significativamente a GRPO en un 99% en AIME, un 41% en AMC y un 17% en Minerva Math. Notablemente, estos patrones de pensamiento de alto nivel, abstraídos de solo 500 muestras previas, se generalizan eficazmente en diversas tareas y modelos. Esto resalta el potencial de TAPO para aplicaciones más amplias en múltiples tareas y dominios. Nuestro análisis adicional revela que la introducción de orientación externa produce modelos de razonamiento potentes con una explicabilidad superior del comportamiento de inferencia y una mayor legibilidad de la salida.
English
Reinforcement learning (RL) has emerged as an effective method for training
reasoning models. However, existing RL approaches typically bias the model's
output distribution toward reward-maximizing paths without introducing external
knowledge. This limits their exploration capacity and results in a narrower
reasoning capability boundary compared to base models. To address this
limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel
framework that augments RL by incorporating external high-level guidance
("thought patterns"). By adaptively integrating structured thoughts during
training, TAPO effectively balances model-internal exploration and external
guidance exploitation. Extensive experiments show that our approach
significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva
Math. Notably, these high-level thought patterns, abstracted from only 500
prior samples, generalize effectively across various tasks and models. This
highlights TAPO's potential for broader applications across multiple tasks and
domains. Our further analysis reveals that introducing external guidance
produces powerful reasoning models with superior explainability of inference
behavior and enhanced output readability.Summary
AI-Generated Summary