Масштабирование автономных агентов через автоматическое моделирование вознаграждений и планирование
Scaling Autonomous Agents via Automatic Reward Modeling And Planning
February 17, 2025
Авторы: Zhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в решении широкого спектра задач, связанных с генерацией текста. Однако LLM по-прежнему испытывают трудности с задачами, требующими многошагового принятия решений и обратной связи от среды, такими как онлайн-покупки, научные рассуждения и решение математических задач. В отличие от чистых текстовых данных, сбор крупномасштабных данных для принятия решений является сложной задачей. Более того, многие мощные LLM доступны только через API, что затрудняет их тонкую настройку для задач агентов из-за стоимости и сложности. Чтобы преодолеть ограничения LLM-агентов, мы предлагаем фреймворк, который может автоматически обучать модель вознаграждения на основе среды без участия человека. Эта модель может использоваться для оценки траекторий действий LLM-агентов и предоставления эвристик для планирования задач. В частности, наш подход предполагает использование одного LLM-агента для случайного исследования среды, генерируя разнообразные траектории действий. Затем отдельная LLM используется для назначения задачи и синтеза отрицательного ответа вместе с правильным ответом для каждой траектории. Эти тройки (задача, положительный ответ и отрицательный ответ) затем используются в качестве обучающих данных для оптимизации модели вознаграждения, способной оценивать траектории действий. Эффективность и универсальность нашего фреймворка демонстрируются в ходе оценок, проведенных на различных бенчмарках для агентов. В заключение, наш предложенный фреймворк представляет собой значительный шаг вперед в улучшении способностей LLM-агентов к принятию решений. Автоматизируя обучение моделей вознаграждения, мы преодолеваем проблемы нехватки данных и ограничений API, что потенциально может революционизировать применение LLM в сложных и интерактивных средах. Это исследование открывает путь для создания более совершенных ИИ-агентов, способных решать широкий спектр реальных задач, требующих многошагового принятия решений.
English
Large language models (LLMs) have demonstrated remarkable capabilities across
a range of text-generation tasks. However, LLMs still struggle with problems
requiring multi-step decision-making and environmental feedback, such as online
shopping, scientific reasoning, and mathematical problem-solving. Unlike pure
text data, collecting large-scale decision-making data is challenging.
Moreover, many powerful LLMs are only accessible through APIs, which hinders
their fine-tuning for agent tasks due to cost and complexity. To address LLM
agents' limitations, we propose a framework that can automatically learn a
reward model from the environment without human annotations. This model can be
used to evaluate the action trajectories of LLM agents and provide heuristics
for task planning. Specifically, our approach involves employing one LLM-based
agent to navigate an environment randomly, generating diverse action
trajectories. Subsequently, a separate LLM is leveraged to assign a task intent
and synthesize a negative response alongside the correct response for each
trajectory. These triplets (task intent, positive response, and negative
response) are then utilized as training data to optimize a reward model capable
of scoring action trajectories. The effectiveness and generalizability of our
framework are demonstrated through evaluations conducted on different agent
benchmarks. In conclusion, our proposed framework represents a significant
advancement in enhancing LLM agents' decision-making capabilities. By
automating the learning of reward models, we overcome the challenges of data
scarcity and API limitations, potentially revolutionizing the application of
LLMs in complex and interactive environments. This research paves the way for
more sophisticated AI agents capable of tackling a wide range of real-world
problems requiring multi-step decision-making.Summary
AI-Generated Summary