Assegnazione del Credito a Posteriori per Agenti LLM a Lungo Orizzonte

Abstract

I modelli linguistici di grandi dimensioni (LLM) agenti incontrano spesso sfide significative nell'attribuzione del merito (credit assignment) in compiti multi-step con orizzonte temporale lungo, a causa di ricompense sparse. I metodi esistenti privi di funzione valore, come Group Relative Policy Optimization (GRPO), incontrano due colli di bottiglia fondamentali: stima imprecisa dei Q-value a livello di step e baseline di valore non allineate per gli stati intermedi. Per affrontare queste limitazioni, introduciamo HCAPO, il primo framework che integra l'attribuzione del merito retrospettiva (hindsight credit assignment) negli agenti LLM. HCAPO utilizza l'LLM stesso come critico post-hoc per affinare i Q-value a livello di step attraverso un ragionamento retrospettivo. Inoltre, il meccanismo di vantaggio multi-scala (multi-scale advantage) di HCAPO integra efficacemente le inaccurate baseline di valore negli stati decisionali critici. Le valutazioni su tre benchmark impegnativi, tra cui WebShop e ALFWorld, dimostrano che HCAPO supera costantemente i metodi di RL all'avanguardia. In particolare, HCAPO raggiunge un miglioramento del 7,7% nel tasso di successo su WebShop e del 13,8% su ALFWorld rispetto a GRPO utilizzando il modello Qwen2.5-7B-Instruct. Questi risultati indicano che HCAPO migliora significativamente l'efficienza dell'esplorazione, promuove un processo decisionale conciso e garantisce la scalabilità in compiti complessi e a lungo termine.

English

Large Language Model (LLM) agents often face significant credit assignment challenges in long-horizon, multi-step tasks due to sparse rewards. Existing value-free methods, such as Group Relative Policy Optimization (GRPO), encounter two fundamental bottlenecks: inaccurate step-level Q-value estimation and misaligned value baselines for intermediate states. To address these limitations, we introduce HCAPO, the first framework to integrate hindsight credit assignment into LLM agents. HCAPO leverages the LLM itself as a post-hoc critic to refine step-level Q-values through hindsight reasoning. Furthermore, HCAPO's multi-scale advantage mechanism effectively supplements the inaccurate value baselines at critical decision states. Evaluations across three challenging benchmarks, including WebShop and ALFWorld, demonstrate that HCAPO consistently outperforms state-of-the-art RL methods. Notably, HCAPO achieves a 7.7% improvement in success rate on WebShop and a 13.8% on ALFWorld over GRPO using the Qwen2.5-7B-Instruct model. These results indicate that HCAPO significantly enhances exploration efficiency, promotes concise decision-making, and ensures scalability in complex, long-horizon tasks.

Assegnazione del Credito a Posteriori per Agenti LLM a Lungo Orizzonte

Hindsight Credit Assignment for Long-Horizon LLM Agents

Abstract

Support