Exemplos Autogerados em Contexto Melhoram Agentes de LLM para Tarefas de Tomada de Decisão Sequencial
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks
May 1, 2025
Autores: Vishnu Sarukkai, Zhiqiang Xie, Kayvon Fatahalian
cs.AI
Resumo
Muitos métodos para melhorar agentes de Modelos de Linguagem de Grande Escala (LLMs) em tarefas de tomada de decisão sequencial dependem de engenharia de conhecimento específica para a tarefa—como ajuste de prompts, exemplos contextuais selecionados ou espaços de observação e ação personalizados. Usando essas abordagens, o desempenho do agente melhora com a qualidade ou quantidade de engenharia de conhecimento investida. Em vez disso, investigamos como os agentes LLMs podem melhorar automaticamente seu desempenho aprendendo no contexto a partir de suas próprias experiências bem-sucedidas em tarefas semelhantes. Em vez de depender de engenharia de conhecimento específica para a tarefa, focamos na construção e refinamento de um banco de dados de exemplos autogerados. Demonstramos que mesmo uma acumulação ingênua de trajetórias bem-sucedidas em tarefas de treinamento aumenta o desempenho em testes em três benchmarks: ALFWorld (73% para 89%), Wordcraft (55% para 64%) e InterCode-SQL (75% para 79%)—igualando o desempenho que o agente inicial alcança se permitido duas a três tentativas por tarefa. Em seguida, introduzimos duas extensões: (1) seleção no nível do banco de dados por meio de treinamento baseado em população para identificar coleções de exemplos de alto desempenho, e (2) seleção no nível de exemplos que retém trajetórias individuais com base em sua utilidade empírica como exemplos contextuais. Essas extensões aprimoram ainda mais o desempenho, alcançando 91% no ALFWorld—igualando abordagens mais complexas que empregam componentes e prompts específicos para a tarefa. Nossos resultados demonstram que a construção automática de um banco de dados de trajetórias oferece uma alternativa convincente à engenharia de conhecimento intensiva em mão de obra.
English
Many methods for improving Large Language Model (LLM) agents for sequential
decision-making tasks depend on task-specific knowledge engineering--such as
prompt tuning, curated in-context examples, or customized observation and
action spaces. Using these approaches, agent performance improves with the
quality or amount of knowledge engineering invested. Instead, we investigate
how LLM agents can automatically improve their performance by learning
in-context from their own successful experiences on similar tasks. Rather than
relying on task-specific knowledge engineering, we focus on constructing and
refining a database of self-generated examples. We demonstrate that even a
naive accumulation of successful trajectories across training tasks boosts test
performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%),
and InterCode-SQL (75% to 79%)--matching the performance the initial agent
achieves if allowed two to three attempts per task. We then introduce two
extensions: (1) database-level selection through population-based training to
identify high-performing example collections, and (2) exemplar-level selection
that retains individual trajectories based on their empirical utility as
in-context examples. These extensions further enhance performance, achieving
91% on ALFWorld--matching more complex approaches that employ task-specific
components and prompts. Our results demonstrate that automatic trajectory
database construction offers a compelling alternative to labor-intensive
knowledge engineering.