Los ejemplos autogenerados en contexto mejoran los agentes de LLM para tareas de toma de decisiones secuenciales.

Resumen

Muchos métodos para mejorar los agentes de Modelos de Lenguaje de Gran Escala (LLM) en tareas de toma de decisiones secuenciales dependen de la ingeniería de conocimiento específica de la tarea, como el ajuste de prompts, ejemplos cuidadosamente seleccionados en contexto, o espacios de observación y acción personalizados. Con estos enfoques, el rendimiento del agente mejora con la calidad o cantidad de ingeniería de conocimiento invertida. En cambio, investigamos cómo los agentes LLM pueden mejorar automáticamente su rendimiento aprendiendo en contexto a partir de sus propias experiencias exitosas en tareas similares. En lugar de depender de la ingeniería de conocimiento específica de la tarea, nos enfocamos en construir y refinar una base de datos de ejemplos autogenerados. Demostramos que incluso una acumulación ingenua de trayectorias exitosas a través de tareas de entrenamiento mejora el rendimiento en pruebas en tres benchmarks: ALFWorld (73% a 89%), Wordcraft (55% a 64%) e InterCode-SQL (75% a 79%), igualando el rendimiento que el agente inicial logra si se le permiten dos o tres intentos por tarea. Luego introducimos dos extensiones: (1) selección a nivel de base de datos mediante entrenamiento basado en población para identificar colecciones de ejemplos de alto rendimiento, y (2) selección a nivel de ejemplar que retiene trayectorias individuales basadas en su utilidad empírica como ejemplos en contexto. Estas extensiones mejoran aún más el rendimiento, alcanzando un 91% en ALFWorld, igualando enfoques más complejos que emplean componentes y prompts específicos de la tarea. Nuestros resultados demuestran que la construcción automática de bases de datos de trayectorias ofrece una alternativa convincente a la ingeniería de conocimiento intensiva en mano de obra.

English

Many methods for improving Large Language Model (LLM) agents for sequential decision-making tasks depend on task-specific knowledge engineering--such as prompt tuning, curated in-context examples, or customized observation and action spaces. Using these approaches, agent performance improves with the quality or amount of knowledge engineering invested. Instead, we investigate how LLM agents can automatically improve their performance by learning in-context from their own successful experiences on similar tasks. Rather than relying on task-specific knowledge engineering, we focus on constructing and refining a database of self-generated examples. We demonstrate that even a naive accumulation of successful trajectories across training tasks boosts test performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%), and InterCode-SQL (75% to 79%)--matching the performance the initial agent achieves if allowed two to three attempts per task. We then introduce two extensions: (1) database-level selection through population-based training to identify high-performing example collections, and (2) exemplar-level selection that retains individual trajectories based on their empirical utility as in-context examples. These extensions further enhance performance, achieving 91% on ALFWorld--matching more complex approaches that employ task-specific components and prompts. Our results demonstrate that automatic trajectory database construction offers a compelling alternative to labor-intensive knowledge engineering.

Los ejemplos autogenerados en contexto mejoran los agentes de LLM para tareas de toma de decisiones secuenciales.

Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks

Resumen

Support