Самогенерируемые примеры в контексте улучшают агентов на основе больших языковых моделей для задач последовательного принятия решений
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks
May 1, 2025
Авторы: Vishnu Sarukkai, Zhiqiang Xie, Kayvon Fatahalian
cs.AI
Аннотация
Многие методы улучшения агентов на основе больших языковых моделей (LLM) для задач последовательного принятия решений зависят от специфической для задачи инженерии знаний — например, настройки промптов, тщательно подобранных примеров в контексте или кастомизированных пространств наблюдений и действий. При использовании этих подходов производительность агента улучшается с увеличением качества или объема вложенной инженерии знаний. Вместо этого мы исследуем, как агенты LLM могут автоматически улучшать свою производительность, обучаясь в контексте на основе своих собственных успешных опытов на схожих задачах. Вместо опоры на специфическую для задачи инженерию знаний мы сосредотачиваемся на создании и уточнении базы данных самоcгенерированных примеров. Мы демонстрируем, что даже простое накопление успешных траекторий на обучающих задачах повышает производительность на тестах для трех бенчмарков: ALFWorld (с 73% до 89%), Wordcraft (с 55% до 64%) и InterCode-SQL (с 75% до 79%) — что соответствует производительности, которую изначальный агент достигает, если ему разрешено две-три попытки на задачу. Затем мы вводим два расширения: (1) выбор на уровне базы данных через обучение на основе популяции для идентификации высокопроизводительных коллекций примеров и (2) выбор на уровне экземпляров, который сохраняет отдельные траектории на основе их эмпирической полезности как примеров в контексте. Эти расширения дополнительно повышают производительность, достигая 91% на ALFWorld — что соответствует более сложным подходам, использующим специфические для задачи компоненты и промпты. Наши результаты показывают, что автоматическое построение базы данных траекторий предлагает убедительную альтернативу трудоемкой инженерии знаний.
English
Many methods for improving Large Language Model (LLM) agents for sequential
decision-making tasks depend on task-specific knowledge engineering--such as
prompt tuning, curated in-context examples, or customized observation and
action spaces. Using these approaches, agent performance improves with the
quality or amount of knowledge engineering invested. Instead, we investigate
how LLM agents can automatically improve their performance by learning
in-context from their own successful experiences on similar tasks. Rather than
relying on task-specific knowledge engineering, we focus on constructing and
refining a database of self-generated examples. We demonstrate that even a
naive accumulation of successful trajectories across training tasks boosts test
performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%),
and InterCode-SQL (75% to 79%)--matching the performance the initial agent
achieves if allowed two to three attempts per task. We then introduce two
extensions: (1) database-level selection through population-based training to
identify high-performing example collections, and (2) exemplar-level selection
that retains individual trajectories based on their empirical utility as
in-context examples. These extensions further enhance performance, achieving
91% on ALFWorld--matching more complex approaches that employ task-specific
components and prompts. Our results demonstrate that automatic trajectory
database construction offers a compelling alternative to labor-intensive
knowledge engineering.Summary
AI-Generated Summary