Апостериорное распределение заслуг для агентов на основе больших языковых моделей с длинным горизонтом планирования

Аннотация

Агенты больших языковых моделей (LLM) часто сталкиваются со значительными проблемами распределения заслуг в многошаговых задачах с длительным горизонтом планирования из-за разреженности вознаграждений. Существующие методы, не использующие функцию ценности, такие как Group Relative Policy Optimization (GRPO), сталкиваются с двумя фундаментальными ограничениями: неточной оценкой Q-значений на уровне шага и несоответствием базовых показателей ценности для промежуточных состояний. Для преодоления этих ограничений мы представляем HCAPO — первую систему, интегрирующую ретроспективное распределение заслуг в агенты на основе LLM. HCAPO использует саму LLM в качестве ретроспективного критика для уточнения пошаговых Q-значений через анализ постфактум. Кроме того, механизм преимуществ на разных масштабах в HCAPO эффективно компенсирует неточные базовые показатели ценности в критических состояниях принятия решений. Оценки на трех сложных тестовых наборах, включая WebShop и ALFWorld, демонстрируют, что HCAPO стабильно превосходит современные методы обучения с подкреплением. Примечательно, что HCAPO достигает повышения показателя успешности на 7.7% в WebShop и на 13.8% в ALFWorld по сравнению с GRPO при использовании модели Qwen2.5-7B-Instruct. Эти результаты указывают на то, что HCAPO существенно повышает эффективность исследования, способствует лаконичному принятию решений и обеспечивает масштабируемость в сложных многошаговых задачах.

English

Large Language Model (LLM) agents often face significant credit assignment challenges in long-horizon, multi-step tasks due to sparse rewards. Existing value-free methods, such as Group Relative Policy Optimization (GRPO), encounter two fundamental bottlenecks: inaccurate step-level Q-value estimation and misaligned value baselines for intermediate states. To address these limitations, we introduce HCAPO, the first framework to integrate hindsight credit assignment into LLM agents. HCAPO leverages the LLM itself as a post-hoc critic to refine step-level Q-values through hindsight reasoning. Furthermore, HCAPO's multi-scale advantage mechanism effectively supplements the inaccurate value baselines at critical decision states. Evaluations across three challenging benchmarks, including WebShop and ALFWorld, demonstrate that HCAPO consistently outperforms state-of-the-art RL methods. Notably, HCAPO achieves a 7.7% improvement in success rate on WebShop and a 13.8% on ALFWorld over GRPO using the Qwen2.5-7B-Instruct model. These results indicate that HCAPO significantly enhances exploration efficiency, promotes concise decision-making, and ensures scalability in complex, long-horizon tasks.

Апостериорное распределение заслуг для агентов на основе больших языковых моделей с длинным горизонтом планирования

Hindsight Credit Assignment for Long-Horizon LLM Agents

Аннотация

Support