APPO: Optimización de Políticas Procedurales Agénticas

Resumen

Los avances recientes en Aprendizaje por Refuerzo (RL) agentivo han mejorado sustancialmente las capacidades de uso de herramientas en múltiples turnos de los agentes basados en modelos de lenguaje grandes. Sin embargo, la mayoría de los métodos existentes asignan crédito sobre unidades heurísticas gruesas, como los límites de llamadas a herramientas o flujos de trabajo fijos, lo que dificulta identificar qué decisiones intermedias influyen en los resultados finales. En este trabajo, estudiamos el RL agentivo desde dos perspectivas: dónde bifurcar y cómo asignar crédito después de la bifurcación. Nuestro análisis piloto muestra que los puntos de decisión influyentes están distribuidos ampliamente a lo largo de la secuencia generada, en lugar de concentrarse en las llamadas a herramientas, mientras que la entropía de tokens por sí sola no refleja de manera confiable su impacto en los resultados finales. Motivados por estas observaciones, proponemos la Optimización de Política Procedimental Agentiva (APPO), que desplaza la bifurcación y la asignación de crédito desde unidades de interacción gruesas hacia puntos de decisión detallados en la secuencia. APPO selecciona ubicaciones de bifurcación mediante una Puntuación de Bifurcación que combina la incertidumbre de tokens con las ganancias de verosimilitud inducidas por la política de continuaciones posteriores, permitiendo una exploración más dirigida mientras filtra posiciones espurias de alta entropía. Además, introduce un escalamiento de ventaja a nivel de procedimiento para distribuir mejor el crédito entre los recorridos bifurcados. Experimentos en 13 puntos de referencia muestran que APPO mejora consistentemente las líneas base fuertes de RL agentivo en casi 4 puntos, mientras mantiene llamadas eficientes a herramientas y preserva la interpretabilidad del comportamiento.

English

Recent advances in agentic Reinforcement Learning (RL) have substantially improved the multi-turn tool-use capabilities of large language model agents. However, most existing methods assign credit over coarse heuristic units, such as tool-call boundaries or fixed workflows, making it difficult to identify which intermediate decisions influence downstream outcomes. In this work, we study agentic RL from two perspectives: where to branch and how to assign credit after branching. Our pilot analysis shows that influential decision points are broadly distributed throughout the generated sequence rather than concentrated at tool calls, while token entropy alone does not reliably reflect their impact on final outcomes. Motivated by these observations, we propose Agentic Procedural Policy Optimization (APPO), which shifts branching and credit assignment from coarse interaction units to fine-grained decision points in the sequence. APPO selects branching locations using a Branching Score that combines token uncertainty with policy-induced likelihood gains of subsequent continuations, enabling more targeted exploration while filtering out spurious high-entropy positions. It further introduces procedure-level advantage scaling to better distribute credit across branched rollouts. Experiments on 13 benchmarks show that APPO consistently improves strong agentic RL baselines by nearly 4 points, while keeping efficient tool-calls and maintaining behavior interpretability.