Trainingsfreie Gruppenrelative Politikoptimierung
Training-Free Group Relative Policy Optimization
October 9, 2025
papers.authors: Yuzheng Cai, Siqi Cai, Yuchen Shi, Zihan Xu, Lichao Chen, Yulei Qin, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Yong Mao, Ke Li, Xing Sun
cs.AI
papers.abstract
Jüngste Fortschritte bei Large Language Model (LLM)-Agenten haben deren vielversprechende allgemeine Fähigkeiten demonstriert. Allerdings verschlechtert sich ihre Leistung in spezialisierten realen Anwendungsbereichen oft aufgrund von Herausforderungen bei der effektiven Integration externer Tools und spezifischer Prompting-Strategien. Während Methoden wie agentenbasiertes Reinforcement Learning vorgeschlagen wurden, um dies zu adressieren, basieren diese typischerweise auf kostspieligen Parameteraktualisierungen, beispielsweise durch einen Prozess, der Supervised Fine-Tuning (SFT) gefolgt von einer Reinforcement Learning (RL)-Phase mit Group Relative Policy Optimization (GRPO) verwendet, um die Ausgabeverteilung zu verändern. Wir argumentieren jedoch, dass LLMs einen ähnlichen Effekt auf die Ausgabeverteilung erzielen können, indem sie erfahrungsbasiertes Wissen als Token-Prior erlernen, was einen weitaus ressourcenschonenderen Ansatz darstellt, der nicht nur praktische Datenknappheit adressiert, sondern auch das häufige Problem der Überanpassung vermeidet. Zu diesem Zweck schlagen wir Training-Free Group Relative Policy Optimization (Training-Free GRPO) vor, eine kosteneffiziente Lösung, die die Leistung von LLM-Agenten ohne Parameteraktualisierungen verbessert. Unsere Methode nutzt den gruppenrelativen semantischen Vorteil anstelle numerischer Vorteile innerhalb jeder Gruppe von Rollouts und destilliert iterativ hochwertiges erfahrungsbasiertes Wissen während des Multi-Epochen-Lernens auf minimalen Ground-Truth-Daten. Solches Wissen dient als erlernter Token-Prior, der nahtlos während LLM-API-Aufrufen integriert wird, um das Modellverhalten zu steuern. Experimente zu mathematischem Denken und Web-Suchaufgaben zeigen, dass Training-Free GRPO, angewendet auf DeepSeek-V3.1-Terminus, die Out-of-Domain-Leistung signifikant verbessert. Mit nur wenigen Dutzend Trainingsdaten übertrifft Training-Free GRPO feinabgestimmte kleine LLMs mit minimalen Trainingsdaten und -kosten.
English
Recent advances in Large Language Model (LLM) agents have demonstrated their
promising general capabilities. However, their performance in specialized
real-world domains often degrades due to challenges in effectively integrating
external tools and specific prompting strategies. While methods like agentic
reinforcement learning have been proposed to address this, they typically rely
on costly parameter updates, for example, through a process that uses
Supervised Fine-Tuning (SFT) followed by a Reinforcement Learning (RL) phase
with Group Relative Policy Optimization (GRPO) to alter the output
distribution. However, we argue that LLMs can achieve a similar effect on the
output distribution by learning experiential knowledge as a token prior, which
is a far more lightweight approach that not only addresses practical data
scarcity but also avoids the common issue of overfitting. To this end, we
propose Training-Free Group Relative Policy Optimization (Training-Free GRPO),
a cost-effective solution that enhances LLM agent performance without any
parameter updates. Our method leverages the group relative semantic advantage
instead of numerical ones within each group of rollouts, iteratively distilling
high-quality experiential knowledge during multi-epoch learning on a minimal
ground-truth data. Such knowledge serves as the learned token prior, which is
seamlessly integrated during LLM API calls to guide model behavior. Experiments
on mathematical reasoning and web searching tasks demonstrate that
Training-Free GRPO, when applied to DeepSeek-V3.1-Terminus, significantly
improves out-of-domain performance. With just a few dozen training samples,
Training-Free GRPO outperforms fine-tuned small LLMs with marginal training
data and cost.