Otimização de Políticas Reforçadas por Agentes
Agentic Reinforced Policy Optimization
July 26, 2025
Autores: Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang, Zhongxia Chen, Jiazhen Du, Huiyang Wang, Fuzheng Zhang, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
cs.AI
Resumo
O aprendizado por reforço em larga escala com recompensas verificáveis (RLVR) demonstrou sua eficácia em aproveitar o potencial dos grandes modelos de linguagem (LLMs) para tarefas de raciocínio de turno único. Em cenários realistas de raciocínio, os LLMs frequentemente podem utilizar ferramentas externas para auxiliar nos processos de resolução de tarefas. No entanto, os algoritmos atuais de RL não equilibram adequadamente as capacidades intrínsecas de raciocínio de longo prazo dos modelos e sua proficiência em interações multi-turno com ferramentas. Para preencher essa lacuna, propomos o Otimização de Política Reforçada Agente (ARPO), um novo algoritmo de RL agente projetado para treinar agentes baseados em LLMs de multi-turno. Através de experimentos preliminares, observamos que os LLMs tendem a exibir comportamentos altamente incertos, caracterizados por um aumento na distribuição de entropia dos tokens gerados, imediatamente após interações com ferramentas externas. Motivados por essa observação, o ARPO incorpora um mecanismo de rollout adaptativo baseado em entropia, equilibrando dinamicamente a amostragem global de trajetórias e a amostragem em nível de passo, promovendo assim a exploração em passos com alta incerteza após o uso de ferramentas. Ao integrar uma estimativa de atribuição de vantagem, o ARPO permite que os LLMs internalizem as diferenças de vantagem em interações passo a passo com o uso de ferramentas. Nossos experimentos em 13 benchmarks desafiadores nos domínios de raciocínio computacional, raciocínio de conhecimento e busca profunda demonstram a superioridade do ARPO sobre algoritmos de RL em nível de trajetória. Notavelmente, o ARPO alcança um desempenho aprimorado utilizando apenas metade do orçamento de uso de ferramentas exigido pelos métodos existentes, oferecendo uma solução escalável para alinhar agentes baseados em LLMs com ambientes dinâmicos em tempo real. Nosso código e conjuntos de dados estão disponíveis em https://github.com/dongguanting/ARPO.
English
Large-scale reinforcement learning with verifiable rewards (RLVR) has
demonstrated its effectiveness in harnessing the potential of large language
models (LLMs) for single-turn reasoning tasks. In realistic reasoning
scenarios, LLMs can often utilize external tools to assist in task-solving
processes. However, current RL algorithms inadequately balance the models'
intrinsic long-horizon reasoning capabilities and their proficiency in
multi-turn tool interactions. To bridge this gap, we propose Agentic Reinforced
Policy Optimization (ARPO), a novel agentic RL algorithm tailored for training
multi-turn LLM-based agents. Through preliminary experiments, we observe that
LLMs tend to exhibit highly uncertain behavior, characterized by an increase in
the entropy distribution of generated tokens, immediately following
interactions with external tools. Motivated by this observation, ARPO
incorporates an entropy-based adaptive rollout mechanism, dynamically balancing
global trajectory sampling and step-level sampling, thereby promoting
exploration at steps with high uncertainty after tool usage. By integrating an
advantage attribution estimation, ARPO enables LLMs to internalize advantage
differences in stepwise tool-use interactions. Our experiments across 13
challenging benchmarks in computational reasoning, knowledge reasoning, and
deep search domains demonstrate ARPO's superiority over trajectory-level RL
algorithms. Remarkably, ARPO achieves improved performance using only half of
the tool-use budget required by existing methods, offering a scalable solution
for aligning LLM-based agents with real-time dynamic environments. Our code and
datasets are released at https://github.com/dongguanting/ARPO