Агент-R: Обучение языковых моделей агентов на отражение через итеративное самообучениеAgent-R: Training Language Model Agents to Reflect via Iterative
Self-Training
Агенты с Большими Языковыми Моделями (LLMs) становятся все более важными для решения сложных задач в интерактивных средах. Существующие работы в основном сосредотачиваются на улучшении производительности путем клонирования поведения у более сильных экспертов, однако такие подходы часто терпят неудачу в реальных приложениях, в основном из-за неспособности восстановления после ошибок. Однако данные критики на уровне шага сложно и дорого собирать. Автоматизация и динамическое создание наборов данных для самокритики являются ключевыми для наделения моделей интеллектуальными агентскими способностями. В данной работе мы предлагаем итеративную рамку самообучения, Agent-R, которая позволяет языковому агенту отражаться на лету. В отличие от традиционных методов, которые вознаграждают или наказывают действия на основе правильности, Agent-R использует MCTS для создания обучающих данных, которые восстанавливают правильные траектории из ошибочных. Одним из ключевых вызовов самоотражения агента является необходимость своевременной коррекции, а не ожидания до конца выполнения. Для решения этой проблемы мы предлагаем механизм создания модельно-управляемой критики: модель актера идентифицирует первый шаг ошибки (в пределах своих текущих возможностей) в неудачной траектории. Начиная с него, мы сплетаем его с смежным правильным путем, который имеет общий родительский узел в дереве. Эта стратегия позволяет модели учиться отражению на основе ее текущей политики, что в конечном итоге обеспечивает более эффективное обучение. Для дальнейшего изучения масштабируемости этого парадигмы самосовершенствования мы исследуем итеративное совершенствование как возможностей исправления ошибок, так и создания набора данных. Наши результаты показывают, что Agent-R непрерывно улучшает способность модели восстанавливаться после ошибок и обеспечивает своевременную коррекцию ошибок. Эксперименты в трех интерактивных средах показывают, что Agent-R эффективно оснащает агентов для исправления ошибочных действий, избегая зацикливания, достигая более высокой производительности по сравнению с базовыми методами (+5.59%).