Ottimizzazione delle Politiche Relative di Gruppo Senza Addestramento
Training-Free Group Relative Policy Optimization
October 9, 2025
Autori: Yuzheng Cai, Siqi Cai, Yuchen Shi, Zihan Xu, Lichao Chen, Yulei Qin, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Yong Mao, Ke Li, Xing Sun
cs.AI
Abstract
I recenti progressi negli agenti basati su Large Language Model (LLM) hanno dimostrato le loro promettenti capacità generali. Tuttavia, le loro prestazioni in domini specializzati del mondo reale spesso si degradano a causa delle difficoltà nell'integrare efficacemente strumenti esterni e strategie di prompting specifiche. Sebbene siano stati proposti metodi come l'apprendimento per rinforzo agentico per affrontare questo problema, essi si basano tipicamente su aggiornamenti dei parametri costosi, ad esempio attraverso un processo che utilizza il Supervised Fine-Tuning (SFT) seguito da una fase di Reinforcement Learning (RL) con Group Relative Policy Optimization (GRPO) per alterare la distribuzione dell'output. Tuttavia, sosteniamo che gli LLM possono ottenere un effetto simile sulla distribuzione dell'output apprendendo conoscenza esperienziale come prior sui token, un approccio molto più leggero che non solo affronta la scarsità pratica dei dati, ma evita anche il comune problema dell'overfitting. A tal fine, proponiamo il Training-Free Group Relative Policy Optimization (Training-Free GRPO), una soluzione economica che migliora le prestazioni degli agenti LLM senza alcun aggiornamento dei parametri. Il nostro metodo sfrutta il vantaggio semantico relativo al gruppo invece di quelli numerici all'interno di ogni gruppo di rollout, distillando iterativamente conoscenza esperienziale di alta qualità durante l'apprendimento multi-epoca su un minimo di dati ground-truth. Tale conoscenza funge da prior sui token appresa, che viene integrata in modo fluido durante le chiamate API degli LLM per guidare il comportamento del modello. Esperimenti su compiti di ragionamento matematico e ricerca web dimostrano che il Training-Free GRPO, applicato a DeepSeek-V3.1-Terminus, migliora significativamente le prestazioni out-of-domain. Con solo poche decine di campioni di addestramento, il Training-Free GRPO supera i piccoli LLM fine-tuned con dati e costi di addestramento marginali.
English
Recent advances in Large Language Model (LLM) agents have demonstrated their
promising general capabilities. However, their performance in specialized
real-world domains often degrades due to challenges in effectively integrating
external tools and specific prompting strategies. While methods like agentic
reinforcement learning have been proposed to address this, they typically rely
on costly parameter updates, for example, through a process that uses
Supervised Fine-Tuning (SFT) followed by a Reinforcement Learning (RL) phase
with Group Relative Policy Optimization (GRPO) to alter the output
distribution. However, we argue that LLMs can achieve a similar effect on the
output distribution by learning experiential knowledge as a token prior, which
is a far more lightweight approach that not only addresses practical data
scarcity but also avoids the common issue of overfitting. To this end, we
propose Training-Free Group Relative Policy Optimization (Training-Free GRPO),
a cost-effective solution that enhances LLM agent performance without any
parameter updates. Our method leverages the group relative semantic advantage
instead of numerical ones within each group of rollouts, iteratively distilling
high-quality experiential knowledge during multi-epoch learning on a minimal
ground-truth data. Such knowledge serves as the learned token prior, which is
seamlessly integrated during LLM API calls to guide model behavior. Experiments
on mathematical reasoning and web searching tasks demonstrate that
Training-Free GRPO, when applied to DeepSeek-V3.1-Terminus, significantly
improves out-of-domain performance. With just a few dozen training samples,
Training-Free GRPO outperforms fine-tuned small LLMs with marginal training
data and cost.