Optimización de Políticas Reforzadas por Agentes
Agentic Reinforced Policy Optimization
July 26, 2025
Autores: Guanting Dong, Hangyu Mao, Kai Ma, Licheng Bao, Yifei Chen, Zhongyuan Wang, Zhongxia Chen, Jiazhen Du, Huiyang Wang, Fuzheng Zhang, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
cs.AI
Resumen
El aprendizaje por refuerzo a gran escala con recompensas verificables (RLVR, por sus siglas en inglés) ha demostrado su eficacia para aprovechar el potencial de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tareas de razonamiento de un solo turno. En escenarios de razonamiento realistas, los LLMs suelen utilizar herramientas externas para asistir en los procesos de resolución de tareas. Sin embargo, los algoritmos de RL actuales no equilibran adecuadamente las capacidades intrínsecas de razonamiento a largo plazo de los modelos y su competencia en interacciones multiturno con herramientas. Para cerrar esta brecha, proponemos la Optimización de Política Reforzada Agéntica (ARPO, por sus siglas en inglés), un novedoso algoritmo de RL agéntico diseñado para entrenar agentes basados en LLMs multiturno. A través de experimentos preliminares, observamos que los LLMs tienden a exhibir un comportamiento altamente incierto, caracterizado por un aumento en la distribución de entropía de los tokens generados, inmediatamente después de interactuar con herramientas externas. Motivados por esta observación, ARPO incorpora un mecanismo de despliegue adaptativo basado en entropía, equilibrando dinámicamente el muestreo de trayectorias globales y el muestreo a nivel de paso, fomentando así la exploración en pasos con alta incertidumbre tras el uso de herramientas. Al integrar una estimación de atribución de ventaja, ARPO permite que los LLMs internalicen las diferencias de ventaja en interacciones paso a paso con herramientas. Nuestros experimentos en 13 desafiantes puntos de referencia en los dominios de razonamiento computacional, razonamiento basado en conocimiento y búsqueda profunda demuestran la superioridad de ARPO sobre los algoritmos de RL a nivel de trayectoria. Notablemente, ARPO logra un mejor rendimiento utilizando solo la mitad del presupuesto de uso de herramientas requerido por los métodos existentes, ofreciendo una solución escalable para alinear agentes basados en LLMs con entornos dinámicos en tiempo real. Nuestro código y conjuntos de datos están disponibles en https://github.com/dongguanting/ARPO.
English
Large-scale reinforcement learning with verifiable rewards (RLVR) has
demonstrated its effectiveness in harnessing the potential of large language
models (LLMs) for single-turn reasoning tasks. In realistic reasoning
scenarios, LLMs can often utilize external tools to assist in task-solving
processes. However, current RL algorithms inadequately balance the models'
intrinsic long-horizon reasoning capabilities and their proficiency in
multi-turn tool interactions. To bridge this gap, we propose Agentic Reinforced
Policy Optimization (ARPO), a novel agentic RL algorithm tailored for training
multi-turn LLM-based agents. Through preliminary experiments, we observe that
LLMs tend to exhibit highly uncertain behavior, characterized by an increase in
the entropy distribution of generated tokens, immediately following
interactions with external tools. Motivated by this observation, ARPO
incorporates an entropy-based adaptive rollout mechanism, dynamically balancing
global trajectory sampling and step-level sampling, thereby promoting
exploration at steps with high uncertainty after tool usage. By integrating an
advantage attribution estimation, ARPO enables LLMs to internalize advantage
differences in stepwise tool-use interactions. Our experiments across 13
challenging benchmarks in computational reasoning, knowledge reasoning, and
deep search domains demonstrate ARPO's superiority over trajectory-level RL
algorithms. Remarkably, ARPO achieves improved performance using only half of
the tool-use budget required by existing methods, offering a scalable solution
for aligning LLM-based agents with real-time dynamic environments. Our code and
datasets are released at https://github.com/dongguanting/ARPO