Агент-R: Обучение языковых моделей агентов на отражение через итеративное самообучение
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training
January 20, 2025
Авторы: Siyu Yuan, Zehui Chen, Zhiheng Xi, Junjie Ye, Zhengyin Du, Jiecao Chen
cs.AI
Аннотация
Агенты с Большими Языковыми Моделями (LLMs) становятся все более важными для решения сложных задач в интерактивных средах. Существующие работы в основном сосредотачиваются на улучшении производительности путем клонирования поведения у более сильных экспертов, однако такие подходы часто терпят неудачу в реальных приложениях, в основном из-за неспособности восстановления после ошибок. Однако данные критики на уровне шага сложно и дорого собирать. Автоматизация и динамическое создание наборов данных для самокритики являются ключевыми для наделения моделей интеллектуальными агентскими способностями. В данной работе мы предлагаем итеративную рамку самообучения, Agent-R, которая позволяет языковому агенту отражаться на лету. В отличие от традиционных методов, которые вознаграждают или наказывают действия на основе правильности, Agent-R использует MCTS для создания обучающих данных, которые восстанавливают правильные траектории из ошибочных. Одним из ключевых вызовов самоотражения агента является необходимость своевременной коррекции, а не ожидания до конца выполнения. Для решения этой проблемы мы предлагаем механизм создания модельно-управляемой критики: модель актера идентифицирует первый шаг ошибки (в пределах своих текущих возможностей) в неудачной траектории. Начиная с него, мы сплетаем его с смежным правильным путем, который имеет общий родительский узел в дереве. Эта стратегия позволяет модели учиться отражению на основе ее текущей политики, что в конечном итоге обеспечивает более эффективное обучение. Для дальнейшего изучения масштабируемости этого парадигмы самосовершенствования мы исследуем итеративное совершенствование как возможностей исправления ошибок, так и создания набора данных. Наши результаты показывают, что Agent-R непрерывно улучшает способность модели восстанавливаться после ошибок и обеспечивает своевременную коррекцию ошибок. Эксперименты в трех интерактивных средах показывают, что Agent-R эффективно оснащает агентов для исправления ошибочных действий, избегая зацикливания, достигая более высокой производительности по сравнению с базовыми методами (+5.59%).
English
Large Language Models (LLMs) agents are increasingly pivotal for addressing
complex tasks in interactive environments. Existing work mainly focuses on
enhancing performance through behavior cloning from stronger experts, yet such
approaches often falter in real-world applications, mainly due to the inability
to recover from errors. However, step-level critique data is difficult and
expensive to collect. Automating and dynamically constructing self-critique
datasets is thus crucial to empowering models with intelligent agent
capabilities. In this work, we propose an iterative self-training framework,
Agent-R, that enables language Agent to Reflect on the fly. Unlike traditional
methods that reward or penalize actions based on correctness, Agent-R leverages
MCTS to construct training data that recover correct trajectories from
erroneous ones. A key challenge of agent reflection lies in the necessity for
timely revision rather than waiting until the end of a rollout. To address
this, we introduce a model-guided critique construction mechanism: the actor
model identifies the first error step (within its current capability) in a
failed trajectory. Starting from it, we splice it with the adjacent correct
path, which shares the same parent node in the tree. This strategy enables the
model to learn reflection based on its current policy, therefore yielding
better learning efficiency. To further explore the scalability of this
self-improvement paradigm, we investigate iterative refinement of both error
correction capabilities and dataset construction. Our findings demonstrate that
Agent-R continuously improves the model's ability to recover from errors and
enables timely error correction. Experiments on three interactive environments
show that Agent-R effectively equips agents to correct erroneous actions while
avoiding loops, achieving superior performance compared to baseline methods
(+5.59%).Summary
AI-Generated Summary