Gli esempi generati autonomamente nel contesto migliorano gli agenti LLM per i compiti di decisione sequenziale.

Abstract

Molti metodi per migliorare gli agenti basati su Large Language Model (LLM) per compiti di decisione sequenziale dipendono dall'ingegneria della conoscenza specifica per il compito, come la sintonizzazione dei prompt, esempi curati in contesto o spazi di osservazione e azione personalizzati. Utilizzando questi approcci, le prestazioni dell'agente migliorano con la qualità o la quantità di ingegneria della conoscenza investita. Invece, noi indaghiamo come gli agenti LLM possano migliorare automaticamente le loro prestazioni apprendendo in contesto dalle proprie esperienze di successo su compiti simili. Piuttosto che affidarsi all'ingegneria della conoscenza specifica per il compito, ci concentriamo sulla costruzione e sul perfezionamento di un database di esempi auto-generati. Dimostriamo che anche un accumulo ingenuo di traiettorie di successo attraverso compiti di addestramento migliora le prestazioni nei test su tre benchmark: ALFWorld (dal 73% all'89%), Wordcraft (dal 55% al 64%) e InterCode-SQL (dal 75% al 79%)—eguagliando le prestazioni che l'agente iniziale raggiunge se gli sono concessi due o tre tentativi per compito. Introduciamo poi due estensioni: (1) selezione a livello di database attraverso l'addestramento basato sulla popolazione per identificare collezioni di esempi ad alte prestazioni, e (2) selezione a livello di esemplare che conserva le singole traiettorie in base alla loro utilità empirica come esempi in contesto. Queste estensioni migliorano ulteriormente le prestazioni, raggiungendo il 91% su ALFWorld—eguagliando approcci più complessi che impiegano componenti e prompt specifici per il compito. I nostri risultati dimostrano che la costruzione automatica di un database di traiettorie offre un'alternativa convincente all'ingegneria della conoscenza laboriosa.

English

Many methods for improving Large Language Model (LLM) agents for sequential decision-making tasks depend on task-specific knowledge engineering--such as prompt tuning, curated in-context examples, or customized observation and action spaces. Using these approaches, agent performance improves with the quality or amount of knowledge engineering invested. Instead, we investigate how LLM agents can automatically improve their performance by learning in-context from their own successful experiences on similar tasks. Rather than relying on task-specific knowledge engineering, we focus on constructing and refining a database of self-generated examples. We demonstrate that even a naive accumulation of successful trajectories across training tasks boosts test performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%), and InterCode-SQL (75% to 79%)--matching the performance the initial agent achieves if allowed two to three attempts per task. We then introduce two extensions: (1) database-level selection through population-based training to identify high-performing example collections, and (2) exemplar-level selection that retains individual trajectories based on their empirical utility as in-context examples. These extensions further enhance performance, achieving 91% on ALFWorld--matching more complex approaches that employ task-specific components and prompts. Our results demonstrate that automatic trajectory database construction offers a compelling alternative to labor-intensive knowledge engineering.

Gli esempi generati autonomamente nel contesto migliorano gli agenti LLM per i compiti di decisione sequenziale.

Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks

Abstract

Support