Zelfgegenereerde in-context voorbeelden verbeteren LLM-agents voor sequentiële besluitvormingstaken
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks
May 1, 2025
Auteurs: Vishnu Sarukkai, Zhiqiang Xie, Kayvon Fatahalian
cs.AI
Samenvatting
Veel methoden voor het verbeteren van Large Language Model (LLM) agents voor sequentiële besluitvormingstaken zijn afhankelijk van taakspecifieke kennisengineering—zoals prompt tuning, zorgvuldig geselecteerde in-context voorbeelden, of aangepaste observatie- en actieruimtes. Bij deze benaderingen verbetert de prestaties van de agent naarmate de kwaliteit of hoeveelheid van de geïnvesteerde kennisengineering toeneemt. In plaats daarvan onderzoeken wij hoe LLM agents hun prestaties automatisch kunnen verbeteren door in-context te leren van hun eigen succesvolle ervaringen op vergelijkbare taken. In plaats van te vertrouwen op taakspecifieke kennisengineering, richten wij ons op het opbouwen en verfijnen van een database van zelf gegenereerde voorbeelden. Wij tonen aan dat zelfs een naïeve accumulatie van succesvolle trajecten over trainingstaken de testprestaties op drie benchmarks verbetert: ALFWorld (73% tot 89%), Wordcraft (55% tot 64%), en InterCode-SQL (75% tot 79%)—wat overeenkomt met de prestaties die de initiële agent bereikt als deze twee tot drie pogingen per taak mag uitvoeren. Vervolgens introduceren wij twee uitbreidingen: (1) database-level selectie via population-based training om hoogpresterende voorbeeldcollecties te identificeren, en (2) exemplar-level selectie die individuele trajecten behoudt op basis van hun empirische nut als in-context voorbeelden. Deze uitbreidingen verbeteren de prestaties verder, met een score van 91% op ALFWorld—wat overeenkomt met complexere benaderingen die taakspecifieke componenten en prompts gebruiken. Onze resultaten tonen aan dat de automatische constructie van een trajectdatabase een overtuigend alternatief biedt voor arbeidsintensieve kennisengineering.
English
Many methods for improving Large Language Model (LLM) agents for sequential
decision-making tasks depend on task-specific knowledge engineering--such as
prompt tuning, curated in-context examples, or customized observation and
action spaces. Using these approaches, agent performance improves with the
quality or amount of knowledge engineering invested. Instead, we investigate
how LLM agents can automatically improve their performance by learning
in-context from their own successful experiences on similar tasks. Rather than
relying on task-specific knowledge engineering, we focus on constructing and
refining a database of self-generated examples. We demonstrate that even a
naive accumulation of successful trajectories across training tasks boosts test
performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%),
and InterCode-SQL (75% to 79%)--matching the performance the initial agent
achieves if allowed two to three attempts per task. We then introduce two
extensions: (1) database-level selection through population-based training to
identify high-performing example collections, and (2) exemplar-level selection
that retains individual trajectories based on their empirical utility as
in-context examples. These extensions further enhance performance, achieving
91% on ALFWorld--matching more complex approaches that employ task-specific
components and prompts. Our results demonstrate that automatic trajectory
database construction offers a compelling alternative to labor-intensive
knowledge engineering.