Trainingsvrije Groepsrelatieve Policy Optimalisatie
Training-Free Group Relative Policy Optimization
October 9, 2025
Auteurs: Yuzheng Cai, Siqi Cai, Yuchen Shi, Zihan Xu, Lichao Chen, Yulei Qin, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Yong Mao, Ke Li, Xing Sun
cs.AI
Samenvatting
Recente ontwikkelingen in Large Language Model (LLM)-agenten hebben hun veelbelovende algemene capaciteiten aangetoond. Hun prestaties in gespecialiseerde, real-world domeinen verslechteren echter vaak door uitdagingen bij het effectief integreren van externe tools en specifieke promptingstrategieën. Hoewel methoden zoals agentic reinforcement learning zijn voorgesteld om dit aan te pakken, zijn deze doorgaans afhankelijk van kostbare parameterupdates, bijvoorbeeld via een proces dat gebruikmaakt van Supervised Fine-Tuning (SFT) gevolgd door een Reinforcement Learning (RL)-fase met Group Relative Policy Optimization (GRPO) om de uitvoerdistributie aan te passen. Wij stellen echter dat LLM's een vergelijkbaar effect op de uitvoerdistributie kunnen bereiken door ervaringskennis te leren als een token prior, wat een veel lichtere benadering is die niet alleen praktische dataschaarste aanpakt, maar ook het veelvoorkomende probleem van overfitting vermijdt. Hiertoe stellen wij Training-Free Group Relative Policy Optimization (Training-Free GRPO) voor, een kosteneffectieve oplossing die de prestaties van LLM-agenten verbetert zonder parameterupdates. Onze methode benut het groepsrelatieve semantische voordeel in plaats van numerieke voordelen binnen elke groep van rollouts, waarbij hoogwaardige ervaringskennis iteratief wordt gedestilleerd tijdens multi-epoch leren op minimale grondwaarheidgegevens. Deze kennis dient als de geleerde token prior, die naadloos wordt geïntegreerd tijdens LLM API-aanroepen om het modelgedrag te sturen. Experimenten op het gebied van wiskundig redeneren en webzoeken tonen aan dat Training-Free GRPO, wanneer toegepast op DeepSeek-V3.1-Terminus, de out-of-domain prestaties aanzienlijk verbetert. Met slechts enkele tientallen trainingsamples overtreft Training-Free GRPO gefinetunde kleine LLM's met marginale trainingsgegevens en -kosten.
English
Recent advances in Large Language Model (LLM) agents have demonstrated their
promising general capabilities. However, their performance in specialized
real-world domains often degrades due to challenges in effectively integrating
external tools and specific prompting strategies. While methods like agentic
reinforcement learning have been proposed to address this, they typically rely
on costly parameter updates, for example, through a process that uses
Supervised Fine-Tuning (SFT) followed by a Reinforcement Learning (RL) phase
with Group Relative Policy Optimization (GRPO) to alter the output
distribution. However, we argue that LLMs can achieve a similar effect on the
output distribution by learning experiential knowledge as a token prior, which
is a far more lightweight approach that not only addresses practical data
scarcity but also avoids the common issue of overfitting. To this end, we
propose Training-Free Group Relative Policy Optimization (Training-Free GRPO),
a cost-effective solution that enhances LLM agent performance without any
parameter updates. Our method leverages the group relative semantic advantage
instead of numerical ones within each group of rollouts, iteratively distilling
high-quality experiential knowledge during multi-epoch learning on a minimal
ground-truth data. Such knowledge serves as the learned token prior, which is
seamlessly integrated during LLM API calls to guide model behavior. Experiments
on mathematical reasoning and web searching tasks demonstrate that
Training-Free GRPO, when applied to DeepSeek-V3.1-Terminus, significantly
improves out-of-domain performance. With just a few dozen training samples,
Training-Free GRPO outperforms fine-tuned small LLMs with marginal training
data and cost.