Gli esempi generati autonomamente nel contesto migliorano gli agenti LLM per i compiti di decisione sequenziale.
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks
May 1, 2025
Autori: Vishnu Sarukkai, Zhiqiang Xie, Kayvon Fatahalian
cs.AI
Abstract
Molti metodi per migliorare gli agenti basati su Large Language Model (LLM) per compiti di decisione sequenziale dipendono dall'ingegneria della conoscenza specifica per il compito, come la sintonizzazione dei prompt, esempi curati in contesto o spazi di osservazione e azione personalizzati. Utilizzando questi approcci, le prestazioni dell'agente migliorano con la qualità o la quantità di ingegneria della conoscenza investita. Invece, noi indaghiamo come gli agenti LLM possano migliorare automaticamente le loro prestazioni apprendendo in contesto dalle proprie esperienze di successo su compiti simili. Piuttosto che affidarsi all'ingegneria della conoscenza specifica per il compito, ci concentriamo sulla costruzione e sul perfezionamento di un database di esempi auto-generati. Dimostriamo che anche un accumulo ingenuo di traiettorie di successo attraverso compiti di addestramento migliora le prestazioni nei test su tre benchmark: ALFWorld (dal 73% all'89%), Wordcraft (dal 55% al 64%) e InterCode-SQL (dal 75% al 79%)—eguagliando le prestazioni che l'agente iniziale raggiunge se gli sono concessi due o tre tentativi per compito. Introduciamo poi due estensioni: (1) selezione a livello di database attraverso l'addestramento basato sulla popolazione per identificare collezioni di esempi ad alte prestazioni, e (2) selezione a livello di esemplare che conserva le singole traiettorie in base alla loro utilità empirica come esempi in contesto. Queste estensioni migliorano ulteriormente le prestazioni, raggiungendo il 91% su ALFWorld—eguagliando approcci più complessi che impiegano componenti e prompt specifici per il compito. I nostri risultati dimostrano che la costruzione automatica di un database di traiettorie offre un'alternativa convincente all'ingegneria della conoscenza laboriosa.
English
Many methods for improving Large Language Model (LLM) agents for sequential
decision-making tasks depend on task-specific knowledge engineering--such as
prompt tuning, curated in-context examples, or customized observation and
action spaces. Using these approaches, agent performance improves with the
quality or amount of knowledge engineering invested. Instead, we investigate
how LLM agents can automatically improve their performance by learning
in-context from their own successful experiences on similar tasks. Rather than
relying on task-specific knowledge engineering, we focus on constructing and
refining a database of self-generated examples. We demonstrate that even a
naive accumulation of successful trajectories across training tasks boosts test
performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%),
and InterCode-SQL (75% to 79%)--matching the performance the initial agent
achieves if allowed two to three attempts per task. We then introduce two
extensions: (1) database-level selection through population-based training to
identify high-performing example collections, and (2) exemplar-level selection
that retains individual trajectories based on their empirical utility as
in-context examples. These extensions further enhance performance, achieving
91% on ALFWorld--matching more complex approaches that employ task-specific
components and prompts. Our results demonstrate that automatic trajectory
database construction offers a compelling alternative to labor-intensive
knowledge engineering.