Attribution de crédit a posteriori pour les agents LLM à long horizon

Résumé

Les agents de modèles de langage de grande taille (LLM) sont souvent confrontés à des défis significatifs d'attribution de crédit dans les tâches à long horizon et multi-étapes en raison de récompenses éparses. Les méthodes existantes sans fonction de valeur, telles que l'optimisation de politique relative par groupe (GRPO), rencontrent deux goulots d'étranglement fondamentaux : une estimation imprécise des valeurs Q au niveau de l'étape et des valeurs de référence désalignées pour les états intermédiaires. Pour remédier à ces limitations, nous présentons HCAPO, le premier cadre à intégrer l'attribution de crédit rétrospective dans les agents LLM. HCAPO exploite le LLM lui-même comme un critique a posteriori pour affiner les valeurs Q au niveau de l'étape grâce à un raisonnement rétrospectif. De plus, le mécanisme d'avantage multi-échelle de HCAPO complète efficacement les valeurs de référence imprécises aux états décisionnels critiques. Les évaluations sur trois benchmarks exigeants, incluant WebShop et ALFWorld, démontrent que HCAPO surpasse constamment les méthodes d'apprentissage par renforcement les plus avancées. Notamment, HCAPO réalise une amélioration de 7,7 % du taux de réussite sur WebShop et de 13,8 % sur ALFWorld par rapport à GRPO en utilisant le modèle Qwen2.5-7B-Instruct. Ces résultats indiquent qu'HCAPO améliore significativement l'efficacité de l'exploration, favorise une prise de décision concise et assure une évolutivité dans les tâches complexes et à long horizon.

English

Large Language Model (LLM) agents often face significant credit assignment challenges in long-horizon, multi-step tasks due to sparse rewards. Existing value-free methods, such as Group Relative Policy Optimization (GRPO), encounter two fundamental bottlenecks: inaccurate step-level Q-value estimation and misaligned value baselines for intermediate states. To address these limitations, we introduce HCAPO, the first framework to integrate hindsight credit assignment into LLM agents. HCAPO leverages the LLM itself as a post-hoc critic to refine step-level Q-values through hindsight reasoning. Furthermore, HCAPO's multi-scale advantage mechanism effectively supplements the inaccurate value baselines at critical decision states. Evaluations across three challenging benchmarks, including WebShop and ALFWorld, demonstrate that HCAPO consistently outperforms state-of-the-art RL methods. Notably, HCAPO achieves a 7.7% improvement in success rate on WebShop and a 13.8% on ALFWorld over GRPO using the Qwen2.5-7B-Instruct model. These results indicate that HCAPO significantly enhances exploration efficiency, promotes concise decision-making, and ensures scalability in complex, long-horizon tasks.

Attribution de crédit a posteriori pour les agents LLM à long horizon

Hindsight Credit Assignment for Long-Horizon LLM Agents

Résumé

Support