ChatPaper.aiChatPaper

Optimización de Políticas Aumentada por Pensamiento: Conectando la Guía Externa con las Capacidades Internas

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

May 21, 2025
Autores: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha surgido como un método efectivo para entrenar modelos de razonamiento. Sin embargo, los enfoques de RL existentes suelen sesgar la distribución de salida del modelo hacia caminos que maximizan la recompensa sin incorporar conocimiento externo. Esto limita su capacidad de exploración y resulta en un límite de capacidad de razonamiento más estrecho en comparación con los modelos base. Para abordar esta limitación, proponemos TAPO (Optimización de Política Aumentada con Pensamiento), un marco novedoso que aumenta el RL incorporando orientación externa de alto nivel ("patrones de pensamiento"). Al integrar de manera adaptativa pensamientos estructurados durante el entrenamiento, TAPO equilibra eficazmente la exploración interna del modelo y la explotación de la orientación externa. Experimentos extensos muestran que nuestro enfoque supera significativamente a GRPO en un 99% en AIME, un 41% en AMC y un 17% en Minerva Math. Notablemente, estos patrones de pensamiento de alto nivel, abstraídos de solo 500 muestras previas, se generalizan eficazmente en diversas tareas y modelos. Esto resalta el potencial de TAPO para aplicaciones más amplias en múltiples tareas y dominios. Nuestro análisis adicional revela que la introducción de orientación externa produce modelos de razonamiento potentes con una explicabilidad superior del comportamiento de inferencia y una mayor legibilidad de la salida.
English
Reinforcement learning (RL) has emerged as an effective method for training reasoning models. However, existing RL approaches typically bias the model's output distribution toward reward-maximizing paths without introducing external knowledge. This limits their exploration capacity and results in a narrower reasoning capability boundary compared to base models. To address this limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel framework that augments RL by incorporating external high-level guidance ("thought patterns"). By adaptively integrating structured thoughts during training, TAPO effectively balances model-internal exploration and external guidance exploitation. Extensive experiments show that our approach significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva Math. Notably, these high-level thought patterns, abstracted from only 500 prior samples, generalize effectively across various tasks and models. This highlights TAPO's potential for broader applications across multiple tasks and domains. Our further analysis reveals that introducing external guidance produces powerful reasoning models with superior explainability of inference behavior and enhanced output readability.

Summary

AI-Generated Summary

PDF142May 26, 2025