Atribuição de Crédito em Retrospecto para Agentes de LLM de Longo Horizonte

Resumo

Os agentes de Large Language Model (LLM) frequentemente enfrentam desafios significativos de atribuição de crédito em tarefas de longo horizonte e múltiplas etapas devido a recompensas esparsas. Métodos existentes livres de valor, como o Group Relative Policy Optimization (GRPO), encontram dois gargalos fundamentais: estimativa imprecisa de valores-Q a nível de etapa e linhas de base de valor desalinhadas para estados intermediários. Para superar essas limitações, introduzimos o HCAPO, o primeiro framework a integrar a atribuição de crédito hindsight em agentes LLM. O HCAPO aproveita o próprio LLM como um crítico post-hoc para refinar os valores-Q a nível de etapa através do raciocínio hindsight. Além disso, o mecanismo de vantagem multi-escala do HCAPO suplementa eficazmente as linhas de base de valor imprecisas em estados de decisão críticos. Avaliações em três benchmarks desafiadores, incluindo WebShop e ALFWorld, demonstram que o HCAPO supera consistentemente os métodos state-of-the-art de RL. Notavelmente, o HCAPO alcança uma melhoria de 7,7% na taxa de sucesso no WebShop e 13,8% no ALFWorld em relação ao GRPO usando o modelo Qwen2.5-7B-Instruct. Estes resultados indicam que o HCAPO melhora significativamente a eficiência da exploração, promove uma tomada de decisão concisa e garante escalabilidade em tarefas complexas de longo horizonte.

English

Large Language Model (LLM) agents often face significant credit assignment challenges in long-horizon, multi-step tasks due to sparse rewards. Existing value-free methods, such as Group Relative Policy Optimization (GRPO), encounter two fundamental bottlenecks: inaccurate step-level Q-value estimation and misaligned value baselines for intermediate states. To address these limitations, we introduce HCAPO, the first framework to integrate hindsight credit assignment into LLM agents. HCAPO leverages the LLM itself as a post-hoc critic to refine step-level Q-values through hindsight reasoning. Furthermore, HCAPO's multi-scale advantage mechanism effectively supplements the inaccurate value baselines at critical decision states. Evaluations across three challenging benchmarks, including WebShop and ALFWorld, demonstrate that HCAPO consistently outperforms state-of-the-art RL methods. Notably, HCAPO achieves a 7.7% improvement in success rate on WebShop and a 13.8% on ALFWorld over GRPO using the Qwen2.5-7B-Instruct model. These results indicate that HCAPO significantly enhances exploration efficiency, promotes concise decision-making, and ensures scalability in complex, long-horizon tasks.

Atribuição de Crédito em Retrospecto para Agentes de LLM de Longo Horizonte

Hindsight Credit Assignment for Long-Horizon LLM Agents

Resumo

Support