Les exemples générés automatiquement en contexte améliorent les agents LLM pour les tâches de prise de décision séquentielle.
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks
May 1, 2025
Auteurs: Vishnu Sarukkai, Zhiqiang Xie, Kayvon Fatahalian
cs.AI
Résumé
De nombreuses méthodes pour améliorer les agents de modèles de langage à grande échelle (LLM) dans les tâches de prise de décision séquentielle reposent sur l'ingénierie des connaissances spécifiques à la tâche—comme le réglage des prompts, des exemples contextuels soigneusement sélectionnés, ou des espaces d'observation et d'action personnalisés. Avec ces approches, la performance de l'agent s'améliore avec la qualité ou la quantité d'ingénierie des connaissances investie. À la place, nous explorons comment les agents LLM peuvent améliorer automatiquement leur performance en apprenant en contexte à partir de leurs propres expériences réussies sur des tâches similaires. Plutôt que de dépendre de l'ingénierie des connaissances spécifiques à la tâche, nous nous concentrons sur la construction et l'affinement d'une base de données d'exemples auto-générés. Nous démontrons que même une accumulation naïve de trajectoires réussies à travers les tâches d'entraînement améliore la performance en test sur trois benchmarks : ALFWorld (73% à 89%), Wordcraft (55% à 64%), et InterCode-SQL (75% à 79%)—égalant la performance que l'agent initial atteint s'il est autorisé à deux ou trois tentatives par tâche. Nous introduisons ensuite deux extensions : (1) la sélection au niveau de la base de données via l'entraînement basé sur la population pour identifier des collections d'exemples à haute performance, et (2) la sélection au niveau des exemples qui conserve les trajectoires individuelles en fonction de leur utilité empirique comme exemples contextuels. Ces extensions améliorent encore la performance, atteignant 91% sur ALFWorld—égalant des approches plus complexes qui emploient des composants et des prompts spécifiques à la tâche. Nos résultats démontrent que la construction automatique d'une base de données de trajectoires offre une alternative convaincante à l'ingénierie des connaissances laborieuse.
English
Many methods for improving Large Language Model (LLM) agents for sequential
decision-making tasks depend on task-specific knowledge engineering--such as
prompt tuning, curated in-context examples, or customized observation and
action spaces. Using these approaches, agent performance improves with the
quality or amount of knowledge engineering invested. Instead, we investigate
how LLM agents can automatically improve their performance by learning
in-context from their own successful experiences on similar tasks. Rather than
relying on task-specific knowledge engineering, we focus on constructing and
refining a database of self-generated examples. We demonstrate that even a
naive accumulation of successful trajectories across training tasks boosts test
performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%),
and InterCode-SQL (75% to 79%)--matching the performance the initial agent
achieves if allowed two to three attempts per task. We then introduce two
extensions: (1) database-level selection through population-based training to
identify high-performing example collections, and (2) exemplar-level selection
that retains individual trajectories based on their empirical utility as
in-context examples. These extensions further enhance performance, achieving
91% on ALFWorld--matching more complex approaches that employ task-specific
components and prompts. Our results demonstrate that automatic trajectory
database construction offers a compelling alternative to labor-intensive
knowledge engineering.Summary
AI-Generated Summary