Оптимизация групповой относительной политики без обучения
Training-Free Group Relative Policy Optimization
October 9, 2025
Авторы: Yuzheng Cai, Siqi Cai, Yuchen Shi, Zihan Xu, Lichao Chen, Yulei Qin, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Yong Mao, Ke Li, Xing Sun
cs.AI
Аннотация
Последние достижения в области агентов на основе больших языковых моделей (LLM) продемонстрировали их многообещающие общие возможности. Однако их производительность в специализированных реальных областях часто снижается из-за трудностей в эффективной интеграции внешних инструментов и специфических стратегий промптинга. Хотя для решения этой проблемы были предложены методы, такие как агентное обучение с подкреплением, они обычно полагаются на дорогостоящие обновления параметров, например, через процесс, использующий контролируемую тонкую настройку (SFT), за которой следует фаза обучения с подкреплением (RL) с оптимизацией групповой относительной политики (GRPO) для изменения распределения выходных данных. Однако мы утверждаем, что LLM могут достичь аналогичного эффекта на распределение выходных данных, изучая опытные знания как априорную информацию о токенах, что является гораздо более легковесным подходом, который не только решает проблему нехватки данных, но и избегает распространенной проблемы переобучения. С этой целью мы предлагаем Оптимизацию Групповой Относительной Политики без Обучения (Training-Free GRPO), экономически эффективное решение, которое повышает производительность агентов LLM без каких-либо обновлений параметров. Наш метод использует преимущество групповой относительной семантики вместо числовых преимуществ внутри каждой группы прогонов, итеративно извлекая высококачественные опытные знания в процессе многократного обучения на минимальных эталонных данных. Такие знания служат изученной априорной информацией о токенах, которая бесшовно интегрируется во время вызовов API LLM для управления поведением модели. Эксперименты на задачах математического рассуждения и веб-поиска демонстрируют, что Training-Free GRPO, примененный к DeepSeek-V3.1-Terminus, значительно улучшает производительность вне домена. Всего с несколькими десятками обучающих образцов Training-Free GRPO превосходит тонко настроенные небольшие LLM с минимальными затратами на обучение и данными.
English
Recent advances in Large Language Model (LLM) agents have demonstrated their
promising general capabilities. However, their performance in specialized
real-world domains often degrades due to challenges in effectively integrating
external tools and specific prompting strategies. While methods like agentic
reinforcement learning have been proposed to address this, they typically rely
on costly parameter updates, for example, through a process that uses
Supervised Fine-Tuning (SFT) followed by a Reinforcement Learning (RL) phase
with Group Relative Policy Optimization (GRPO) to alter the output
distribution. However, we argue that LLMs can achieve a similar effect on the
output distribution by learning experiential knowledge as a token prior, which
is a far more lightweight approach that not only addresses practical data
scarcity but also avoids the common issue of overfitting. To this end, we
propose Training-Free Group Relative Policy Optimization (Training-Free GRPO),
a cost-effective solution that enhances LLM agent performance without any
parameter updates. Our method leverages the group relative semantic advantage
instead of numerical ones within each group of rollouts, iteratively distilling
high-quality experiential knowledge during multi-epoch learning on a minimal
ground-truth data. Such knowledge serves as the learned token prior, which is
seamlessly integrated during LLM API calls to guide model behavior. Experiments
on mathematical reasoning and web searching tasks demonstrate that
Training-Free GRPO, when applied to DeepSeek-V3.1-Terminus, significantly
improves out-of-domain performance. With just a few dozen training samples,
Training-Free GRPO outperforms fine-tuned small LLMs with marginal training
data and cost.