Selbstgenerierte In-Kontext-Beispiele verbessern LLM-Agenten für sequenzielle Entscheidungsfindungsaufgaben
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks
May 1, 2025
Autoren: Vishnu Sarukkai, Zhiqiang Xie, Kayvon Fatahalian
cs.AI
Zusammenfassung
Viele Methoden zur Verbesserung von Large Language Model (LLM)-Agenten für sequenzielle Entscheidungsaufgaben basieren auf aufgabenbezogenem Wissensengineering – wie Prompt-Tuning, kuratierte In-Kontext-Beispiele oder angepasste Beobachtungs- und Aktionsräume. Bei diesen Ansätzen verbessert sich die Leistung des Agenten mit der Qualität oder dem Aufwand des investierten Wissensengineerings. Stattdessen untersuchen wir, wie LLM-Agenten ihre Leistung automatisch verbessern können, indem sie In-Kontext aus ihren eigenen erfolgreichen Erfahrungen bei ähnlichen Aufgaben lernen. Anstatt auf aufgabenbezogenes Wissensengineering zu setzen, konzentrieren wir uns auf den Aufbau und die Verfeinerung einer Datenbank mit selbstgenerierten Beispielen. Wir zeigen, dass bereits eine naive Akkumulation erfolgreicher Trajektorien über Trainingsaufgaben die Testleistung auf drei Benchmarks steigert: ALFWorld (73 % auf 89 %), Wordcraft (55 % auf 64 %) und InterCode-SQL (75 % auf 79 %) – was der Leistung entspricht, die der ursprüngliche Agent erreicht, wenn er zwei bis drei Versuche pro Aufgabe erhält. Anschließend führen wir zwei Erweiterungen ein: (1) Datenbankselektion durch populationsbasiertes Training, um hochperformante Beispielsammlungen zu identifizieren, und (2) Exemplarselektion, die einzelne Trajektorien basierend auf ihrer empirischen Nützlichkeit als In-Kontext-Beispiele beibehält. Diese Erweiterungen steigern die Leistung weiter und erreichen 91 % auf ALFWorld – was komplexeren Ansätzen entspricht, die aufgabenbezogene Komponenten und Prompts verwenden. Unsere Ergebnisse zeigen, dass die automatische Konstruktion von Trajektorien-Datenbanken eine überzeugende Alternative zu arbeitsintensivem Wissensengineering darstellt.
English
Many methods for improving Large Language Model (LLM) agents for sequential
decision-making tasks depend on task-specific knowledge engineering--such as
prompt tuning, curated in-context examples, or customized observation and
action spaces. Using these approaches, agent performance improves with the
quality or amount of knowledge engineering invested. Instead, we investigate
how LLM agents can automatically improve their performance by learning
in-context from their own successful experiences on similar tasks. Rather than
relying on task-specific knowledge engineering, we focus on constructing and
refining a database of self-generated examples. We demonstrate that even a
naive accumulation of successful trajectories across training tasks boosts test
performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%),
and InterCode-SQL (75% to 79%)--matching the performance the initial agent
achieves if allowed two to three attempts per task. We then introduce two
extensions: (1) database-level selection through population-based training to
identify high-performing example collections, and (2) exemplar-level selection
that retains individual trajectories based on their empirical utility as
in-context examples. These extensions further enhance performance, achieving
91% on ALFWorld--matching more complex approaches that employ task-specific
components and prompts. Our results demonstrate that automatic trajectory
database construction offers a compelling alternative to labor-intensive
knowledge engineering.Summary
AI-Generated Summary