Optimización de Políticas Relativas de Grupo sin Entrenamiento
Training-Free Group Relative Policy Optimization
October 9, 2025
Autores: Yuzheng Cai, Siqi Cai, Yuchen Shi, Zihan Xu, Lichao Chen, Yulei Qin, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Yong Mao, Ke Li, Xing Sun
cs.AI
Resumen
Los avances recientes en los agentes de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) han demostrado sus prometedoras capacidades generales. Sin embargo, su rendimiento en dominios especializados del mundo real a menudo se ve afectado debido a los desafíos en la integración efectiva de herramientas externas y estrategias específicas de *prompting*. Aunque se han propuesto métodos como el aprendizaje por refuerzo agentico para abordar este problema, estos suelen depender de actualizaciones de parámetros costosas, por ejemplo, mediante un proceso que utiliza Ajuste Supervisado (SFT, por sus siglas en inglés) seguido de una fase de Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) para alterar la distribución de salida. Sin embargo, argumentamos que los LLM pueden lograr un efecto similar en la distribución de salida al aprender conocimiento experiencial como un *prior* de tokens, un enfoque mucho más ligero que no solo aborda la escasez práctica de datos, sino que también evita el problema común de sobreajuste. Con este fin, proponemos la Optimización de Política Relativa de Grupo sin Entrenamiento (Training-Free GRPO), una solución rentable que mejora el rendimiento de los agentes LLM sin actualizaciones de parámetros. Nuestro método aprovecha la ventaja semántica relativa de grupo en lugar de las numéricas dentro de cada grupo de *rollouts*, destilando iterativamente conocimiento experiencial de alta calidad durante el aprendizaje multi-época en un conjunto mínimo de datos de referencia. Dicho conocimiento sirve como el *prior* de tokens aprendido, que se integra sin problemas durante las llamadas a la API del LLM para guiar el comportamiento del modelo. Los experimentos en tareas de razonamiento matemático y búsqueda web demuestran que Training-Free GRPO, cuando se aplica a DeepSeek-V3.1-Terminus, mejora significativamente el rendimiento fuera del dominio. Con solo unas pocas decenas de muestras de entrenamiento, Training-Free GRPO supera a los LLM pequeños ajustados con datos y costos de entrenamiento marginales.
English
Recent advances in Large Language Model (LLM) agents have demonstrated their
promising general capabilities. However, their performance in specialized
real-world domains often degrades due to challenges in effectively integrating
external tools and specific prompting strategies. While methods like agentic
reinforcement learning have been proposed to address this, they typically rely
on costly parameter updates, for example, through a process that uses
Supervised Fine-Tuning (SFT) followed by a Reinforcement Learning (RL) phase
with Group Relative Policy Optimization (GRPO) to alter the output
distribution. However, we argue that LLMs can achieve a similar effect on the
output distribution by learning experiential knowledge as a token prior, which
is a far more lightweight approach that not only addresses practical data
scarcity but also avoids the common issue of overfitting. To this end, we
propose Training-Free Group Relative Policy Optimization (Training-Free GRPO),
a cost-effective solution that enhances LLM agent performance without any
parameter updates. Our method leverages the group relative semantic advantage
instead of numerical ones within each group of rollouts, iteratively distilling
high-quality experiential knowledge during multi-epoch learning on a minimal
ground-truth data. Such knowledge serves as the learned token prior, which is
seamlessly integrated during LLM API calls to guide model behavior. Experiments
on mathematical reasoning and web searching tasks demonstrate that
Training-Free GRPO, when applied to DeepSeek-V3.1-Terminus, significantly
improves out-of-domain performance. With just a few dozen training samples,
Training-Free GRPO outperforms fine-tuned small LLMs with marginal training
data and cost.