Nachträgliche Kreditverteilung für LLM-Agenten mit langem Planungshorizont

Zusammenfassung

Große Sprachmodell-Agenten (LLM-Agenten) stehen bei langfristigen, mehrstufigen Aufgaben aufgrund spärlicher Belohnungssignale oft vor erheblichen Herausforderungen in der Kreditenzuordnung (Credit Assignment). Bestehende wertfreie Methoden, wie die Gruppenrelative Politikoptimierung (GRPO), stoßen auf zwei grundlegende Engpässe: ungenaue schrittweise Q-Wert-Schätzung und fehlausgerichtete Wert-Baselines für Zwischenzustände. Um diese Einschränkungen zu adressieren, führen wir HCAPO ein, den ersten Rahmen, der die retrospektive Kreditenzuordnung (Hindsight Credit Assignment) in LLM-Agenten integriert. HCAPO nutzt das LLM selbst als nachträglichen Kritiker, um schrittweise Q-Werte durch retrospektives Schlussfolgern zu verfeinern. Darüber hinaus ergänzt der mehrskalige Vorteilsmechanismus von HCAPO effektiv die ungenauen Wert-Baselines bei kritischen Entscheidungszuständen. Evaluationen über drei anspruchsvolle Benchmarks, einschließlich WebShop und ALFWorld, zeigen, dass HCAPO durchweg state-of-the-art RL-Methoden übertrifft. Bemerkenswerterweise erzielt HCAPO eine Steigerung der Erfolgsrate um 7,7 % auf WebShop und um 13,8 % auf ALFWorld im Vergleich zu GRPO unter Verwendung des Qwen2.5-7B-Instruct-Modells. Diese Ergebnisse deuten darauf hin, dass HCAPO die Explorationseffizienz erheblich steigert, präzise Entscheidungsfindung fördert und Skalierbarkeit in komplexen, langfristigen Aufgaben gewährleistet.

English

Large Language Model (LLM) agents often face significant credit assignment challenges in long-horizon, multi-step tasks due to sparse rewards. Existing value-free methods, such as Group Relative Policy Optimization (GRPO), encounter two fundamental bottlenecks: inaccurate step-level Q-value estimation and misaligned value baselines for intermediate states. To address these limitations, we introduce HCAPO, the first framework to integrate hindsight credit assignment into LLM agents. HCAPO leverages the LLM itself as a post-hoc critic to refine step-level Q-values through hindsight reasoning. Furthermore, HCAPO's multi-scale advantage mechanism effectively supplements the inaccurate value baselines at critical decision states. Evaluations across three challenging benchmarks, including WebShop and ALFWorld, demonstrate that HCAPO consistently outperforms state-of-the-art RL methods. Notably, HCAPO achieves a 7.7% improvement in success rate on WebShop and a 13.8% on ALFWorld over GRPO using the Qwen2.5-7B-Instruct model. These results indicate that HCAPO significantly enhances exploration efficiency, promotes concise decision-making, and ensures scalability in complex, long-horizon tasks.

Nachträgliche Kreditverteilung für LLM-Agenten mit langem Planungshorizont

Hindsight Credit Assignment for Long-Horizon LLM Agents

Zusammenfassung

Support