Optimisation Relative de Politique de Groupe sans Apprentissage Préalable
Training-Free Group Relative Policy Optimization
October 9, 2025
papers.authors: Yuzheng Cai, Siqi Cai, Yuchen Shi, Zihan Xu, Lichao Chen, Yulei Qin, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Yong Mao, Ke Li, Xing Sun
cs.AI
papers.abstract
Les récentes avancées dans les agents de modèles de langage à grande échelle (LLM) ont démontré leurs capacités générales prometteuses. Cependant, leurs performances dans des domaines spécialisés du monde réel se dégradent souvent en raison des difficultés à intégrer efficacement des outils externes et des stratégies d’incitation spécifiques. Bien que des méthodes comme l'apprentissage par renforcement agentique aient été proposées pour résoudre ce problème, elles reposent généralement sur des mises à jour de paramètres coûteuses, par exemple, via un processus utilisant un réglage fin supervisé (SFT) suivi d'une phase d'apprentissage par renforcement (RL) avec une optimisation de politique relative par groupe (GRPO) pour modifier la distribution des sorties. Cependant, nous soutenons que les LLM peuvent obtenir un effet similaire sur la distribution des sorties en apprenant des connaissances expérientielles comme un a priori de token, une approche bien plus légère qui non seulement aborde la rareté pratique des données, mais évite également le problème courant de surajustement. À cette fin, nous proposons l'Optimisation de Politique Relative par Groupe sans Entraînement (Training-Free GRPO), une solution économique qui améliore les performances des agents LLM sans aucune mise à jour de paramètres. Notre méthode exploite l'avantage sémantique relatif par groupe plutôt que numérique au sein de chaque groupe de déploiements, distillant itérativement des connaissances expérientielles de haute qualité lors d'un apprentissage multi-époques sur un ensemble minimal de données de référence. Ces connaissances servent d'a priori de token appris, qui est intégré de manière transparente lors des appels d'API LLM pour guider le comportement du modèle. Les expériences sur des tâches de raisonnement mathématique et de recherche sur le web démontrent que Training-Free GRPO, appliqué à DeepSeek-V3.1-Terminus, améliore significativement les performances hors domaine. Avec seulement quelques dizaines d'échantillons d'entraînement, Training-Free GRPO surpasse les petits LLM finement ajustés avec des données et des coûts d'entraînement marginaux.
English
Recent advances in Large Language Model (LLM) agents have demonstrated their
promising general capabilities. However, their performance in specialized
real-world domains often degrades due to challenges in effectively integrating
external tools and specific prompting strategies. While methods like agentic
reinforcement learning have been proposed to address this, they typically rely
on costly parameter updates, for example, through a process that uses
Supervised Fine-Tuning (SFT) followed by a Reinforcement Learning (RL) phase
with Group Relative Policy Optimization (GRPO) to alter the output
distribution. However, we argue that LLMs can achieve a similar effect on the
output distribution by learning experiential knowledge as a token prior, which
is a far more lightweight approach that not only addresses practical data
scarcity but also avoids the common issue of overfitting. To this end, we
propose Training-Free Group Relative Policy Optimization (Training-Free GRPO),
a cost-effective solution that enhances LLM agent performance without any
parameter updates. Our method leverages the group relative semantic advantage
instead of numerical ones within each group of rollouts, iteratively distilling
high-quality experiential knowledge during multi-epoch learning on a minimal
ground-truth data. Such knowledge serves as the learned token prior, which is
seamlessly integrated during LLM API calls to guide model behavior. Experiments
on mathematical reasoning and web searching tasks demonstrate that
Training-Free GRPO, when applied to DeepSeek-V3.1-Terminus, significantly
improves out-of-domain performance. With just a few dozen training samples,
Training-Free GRPO outperforms fine-tuned small LLMs with marginal training
data and cost.