DynaSaur: Agentes de Lenguaje Amplios Más Allá de Acciones Predefinidas

Resumen

Los sistemas de agentes LLM existentes suelen seleccionar acciones de un conjunto fijo y predefinido en cada paso. Si bien este enfoque es efectivo en entornos cerrados y de alcance limitado, sostenemos que presenta dos desafíos principales al desplegar agentes LLM en escenarios del mundo real: (1) la selección de un conjunto fijo de acciones restringe significativamente las capacidades de planificación y actuación de los agentes LLM, y (2) este enfoque requiere un esfuerzo humano sustancial para enumerar e implementar todas las posibles acciones, lo cual se vuelve impráctico en entornos complejos con un vasto número de acciones potenciales. En este trabajo, proponemos un marco de agentes LLM que permite la creación dinámica y composición de acciones de manera online. En este marco, el agente interactúa con el entorno generando y ejecutando programas escritos en un lenguaje de programación de propósito general en cada paso. Además, las acciones generadas se acumulan con el tiempo para su reutilización futura. Nuestros extensos experimentos en el banco de pruebas GAIA demuestran que este marco ofrece una flexibilidad significativamente mayor y supera a los métodos anteriores. Destacadamente, permite a un agente LLM recuperarse en escenarios donde no existe una acción relevante en el conjunto predefinido o cuando las acciones existentes fallan debido a casos imprevistos. En el momento de la escritura, ocupamos la posición principal en la tabla de clasificación pública de GAIA. Nuestro código se puede encontrar en https://github.com/adobe-research/dynasaur.

English

Existing LLM agent systems typically select actions from a fixed and predefined set at every step. While this approach is effective in closed, narrowly-scoped environments, we argue that it presents two major challenges when deploying LLM agents in real-world scenarios: (1) selecting from a fixed set of actions significantly restricts the planning and acting capabilities of LLM agents, and (2) this approach requires substantial human effort to enumerate and implement all possible actions, which becomes impractical in complex environments with a vast number of potential actions. In this work, we propose an LLM agent framework that enables the dynamic creation and composition of actions in an online manner. In this framework, the agent interacts with the environment by generating and executing programs written in a general-purpose programming language at each step. Furthermore, generated actions are accumulated over time for future reuse. Our extensive experiments on the GAIA benchmark demonstrate that this framework offers significantly greater flexibility and outperforms previous methods. Notably, it allows an LLM agent to recover in scenarios where no relevant action exists in the predefined set or when existing actions fail due to unforeseen edge cases. At the time of writing, we hold the top position on the GAIA public leaderboard. Our code can be found in https://github.com/adobe-research/dynasaur{https://github.com/adobe-research/dynasaur}.

DynaSaur: Agentes de Lenguaje Amplios Más Allá de Acciones Predefinidas

DynaSaur: Large Language Agents Beyond Predefined Actions

Resumen

Support