Оптимизация политики с усилением мышлением: объединение внешнего руководства и внутренних возможностей
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities
May 21, 2025
Авторы: Jinyang Wu, Chonghua Liao, Mingkuan Feng, Shuai Zhang, Zhengqi Wen, Pengpeng Shao, Huazhe Xu, Jianhua Tao
cs.AI
Аннотация
Обучение с подкреплением (RL) зарекомендовало себя как эффективный метод для тренировки моделей рассуждений. Однако существующие подходы RL обычно смещают распределение выходных данных модели в сторону путей, максимизирующих вознаграждение, без привлечения внешних знаний. Это ограничивает их способность к исследованию и приводит к более узкой границе возможностей рассуждений по сравнению с базовыми моделями. Чтобы устранить это ограничение, мы предлагаем TAPO (Thought-Augmented Policy Optimization) — новую структуру, которая расширяет RL за счет включения внешнего высокоуровневого руководства («шаблонов мышления»). Адаптивно интегрируя структурированные мысли в процессе обучения, TAPO эффективно балансирует внутреннее исследование модели и использование внешнего руководства. Многочисленные эксперименты показывают, что наш подход значительно превосходит GRPO на 99% на AIME, 41% на AMC и 17% на Minerva Math. Примечательно, что эти высокоуровневые шаблоны мышления, абстрагированные всего из 500 предшествующих образцов, эффективно обобщаются для различных задач и моделей. Это подчеркивает потенциал TAPO для более широкого применения в различных задачах и областях. Наш дальнейший анализ показывает, что введение внешнего руководства создает мощные модели рассуждений с превосходной объяснимостью поведения вывода и улучшенной читаемостью выходных данных.
English
Reinforcement learning (RL) has emerged as an effective method for training
reasoning models. However, existing RL approaches typically bias the model's
output distribution toward reward-maximizing paths without introducing external
knowledge. This limits their exploration capacity and results in a narrower
reasoning capability boundary compared to base models. To address this
limitation, we propose TAPO (Thought-Augmented Policy Optimization), a novel
framework that augments RL by incorporating external high-level guidance
("thought patterns"). By adaptively integrating structured thoughts during
training, TAPO effectively balances model-internal exploration and external
guidance exploitation. Extensive experiments show that our approach
significantly outperforms GRPO by 99% on AIME, 41% on AMC, and 17% on Minerva
Math. Notably, these high-level thought patterns, abstracted from only 500
prior samples, generalize effectively across various tasks and models. This
highlights TAPO's potential for broader applications across multiple tasks and
domains. Our further analysis reveals that introducing external guidance
produces powerful reasoning models with superior explainability of inference
behavior and enhanced output readability.Summary
AI-Generated Summary