Otimização de Política Relativa de Grupo sem Treinamento
Training-Free Group Relative Policy Optimization
October 9, 2025
Autores: Yuzheng Cai, Siqi Cai, Yuchen Shi, Zihan Xu, Lichao Chen, Yulei Qin, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Yong Mao, Ke Li, Xing Sun
cs.AI
Resumo
Avanços recentes em agentes de Modelos de Linguagem de Grande Escala (LLMs) demonstraram suas promissoras capacidades gerais. No entanto, seu desempenho em domínios especializados do mundo real frequentemente se degrada devido a desafios na integração eficaz de ferramentas externas e estratégias específicas de prompting. Embora métodos como o aprendizado por reforço agentic tenham sido propostos para abordar esse problema, eles geralmente dependem de atualizações de parâmetros custosas, por exemplo, por meio de um processo que utiliza Ajuste Fino Supervisionado (SFT) seguido por uma fase de Aprendizado por Reforço (RL) com Otimização de Política Relativa de Grupo (GRPO) para alterar a distribuição de saída. No entanto, argumentamos que os LLMs podem alcançar um efeito semelhante na distribuição de saída ao aprender conhecimento experiencial como um prior de token, uma abordagem muito mais leve que não apenas aborda a escassez prática de dados, mas também evita o problema comum de sobreajuste. Para esse fim, propomos a Otimização de Política Relativa de Grupo sem Treinamento (Training-Free GRPO), uma solução econômica que melhora o desempenho de agentes LLM sem qualquer atualização de parâmetros. Nosso método aproveita a vantagem semântica relativa de grupo em vez de vantagens numéricas dentro de cada grupo de rollouts, destilando iterativamente conhecimento experiencial de alta qualidade durante o aprendizado multi-época em um conjunto mínimo de dados de verdade fundamental. Esse conhecimento serve como o prior de token aprendido, que é integrado de forma contínua durante as chamadas de API do LLM para orientar o comportamento do modelo. Experimentos em tarefas de raciocínio matemático e busca na web demonstram que o Training-Free GRPO, quando aplicado ao DeepSeek-V3.1-Terminus, melhora significativamente o desempenho fora do domínio. Com apenas algumas dezenas de amostras de treinamento, o Training-Free GRPO supera LLMs pequenos ajustados finamente com dados e custos marginais de treinamento.
English
Recent advances in Large Language Model (LLM) agents have demonstrated their
promising general capabilities. However, their performance in specialized
real-world domains often degrades due to challenges in effectively integrating
external tools and specific prompting strategies. While methods like agentic
reinforcement learning have been proposed to address this, they typically rely
on costly parameter updates, for example, through a process that uses
Supervised Fine-Tuning (SFT) followed by a Reinforcement Learning (RL) phase
with Group Relative Policy Optimization (GRPO) to alter the output
distribution. However, we argue that LLMs can achieve a similar effect on the
output distribution by learning experiential knowledge as a token prior, which
is a far more lightweight approach that not only addresses practical data
scarcity but also avoids the common issue of overfitting. To this end, we
propose Training-Free Group Relative Policy Optimization (Training-Free GRPO),
a cost-effective solution that enhances LLM agent performance without any
parameter updates. Our method leverages the group relative semantic advantage
instead of numerical ones within each group of rollouts, iteratively distilling
high-quality experiential knowledge during multi-epoch learning on a minimal
ground-truth data. Such knowledge serves as the learned token prior, which is
seamlessly integrated during LLM API calls to guide model behavior. Experiments
on mathematical reasoning and web searching tasks demonstrate that
Training-Free GRPO, when applied to DeepSeek-V3.1-Terminus, significantly
improves out-of-domain performance. With just a few dozen training samples,
Training-Free GRPO outperforms fine-tuned small LLMs with marginal training
data and cost.