Asignación de Crédito en Retrospectiva para Agentes de LLM de Largo Horizonte

Resumen

Los agentes de Modelos de Lenguaje Grande (LLM) a menudo enfrentan desafíos significativos de asignación de crédito en tareas de horizonte largo y múltiples pasos debido a las recompensas dispersas. Los métodos existentes libres de valor, como la Optimización de Políticas Relativas de Grupo (GRPO), encuentran dos cuellos de botella fundamentales: la estimación inexacta de valores-Q a nivel de paso y líneas de base de valor desalineadas para estados intermedios. Para abordar estas limitaciones, presentamos HCAPO, el primer marco que integra la asignación de crédito con retrospectiva en agentes LLM. HCAPO aprovecha el propio LLM como un crítico post-hoc para refinar los valores-Q a nivel de paso mediante el razonamiento con retrospectiva. Además, el mecanismo de ventaja multi-escala de HCAPO complementa efectivamente las líneas de base de valor inexactas en estados de decisión críticos. Las evaluaciones en tres benchmarks desafiantes, incluyendo WebShop y ALFWorld, demuestran que HCAPO supera consistentemente a los métodos de RL más avanzados. Notablemente, HCAPO logra una mejora del 7.7% en la tasa de éxito en WebShop y un 13.8% en ALFWorld sobre GRPO utilizando el modelo Qwen2.5-7B-Instruct. Estos resultados indican que HCAPO mejora significativamente la eficiencia de exploración, promueve una toma de decisiones concisa y asegura escalabilidad en tareas complejas de horizonte largo.

English

Large Language Model (LLM) agents often face significant credit assignment challenges in long-horizon, multi-step tasks due to sparse rewards. Existing value-free methods, such as Group Relative Policy Optimization (GRPO), encounter two fundamental bottlenecks: inaccurate step-level Q-value estimation and misaligned value baselines for intermediate states. To address these limitations, we introduce HCAPO, the first framework to integrate hindsight credit assignment into LLM agents. HCAPO leverages the LLM itself as a post-hoc critic to refine step-level Q-values through hindsight reasoning. Furthermore, HCAPO's multi-scale advantage mechanism effectively supplements the inaccurate value baselines at critical decision states. Evaluations across three challenging benchmarks, including WebShop and ALFWorld, demonstrate that HCAPO consistently outperforms state-of-the-art RL methods. Notably, HCAPO achieves a 7.7% improvement in success rate on WebShop and a 13.8% on ALFWorld over GRPO using the Qwen2.5-7B-Instruct model. These results indicate that HCAPO significantly enhances exploration efficiency, promotes concise decision-making, and ensures scalability in complex, long-horizon tasks.

Asignación de Crédito en Retrospectiva para Agentes de LLM de Largo Horizonte

Hindsight Credit Assignment for Long-Horizon LLM Agents

Resumen

Support