Sibyl: Marco de Agente Simple pero Efectivo para el Razonamiento Complejo en el Mundo Real
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning
July 15, 2024
Autores: Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie
cs.AI
Resumen
Los agentes existentes basados en grandes modelos de lenguaje (LLMs) demuestran capacidades sólidas de resolución de problemas al integrar el conocimiento inherente de los LLMs, su fuerte aprendizaje en contexto y capacidades de cero disparo, y el uso de herramientas combinadas con flujos de invocación de LLM diseñados intrincadamente por humanos. Sin embargo, estos agentes aún presentan deficiencias en el razonamiento a largo plazo y subutilizan el potencial de las herramientas existentes, lo que conduce a deficiencias notables en escenarios de razonamiento del mundo real complejos. Para abordar estas limitaciones, presentamos Sibyl, un marco de agente basado en LLM simple pero potente diseñado para abordar tareas de razonamiento complejas al aprovechar eficientemente un conjunto mínimo de herramientas. Inspirándose en la Teoría del Espacio de Trabajo Global, Sibyl incorpora un espacio de trabajo global para mejorar la gestión y compartición de conocimiento e historial de conversaciones en todo el sistema. Además, guiado por la Teoría de la Sociedad de la Mente, Sibyl implementa un jurado basado en debates de múltiples agentes para auto-refinar las respuestas finales, garantizando un enfoque integral y equilibrado. Este enfoque tiene como objetivo reducir la complejidad del sistema mientras amplía el alcance de los problemas resolubles, desde asuntos típicamente resueltos por humanos en minutos hasta aquellos que requieren horas o incluso días, facilitando así un cambio de pensamiento del Sistema-1 al Sistema-2. Sibyl ha sido diseñado con un enfoque en escalabilidad y facilidad de depuración al incorporar el concepto de reentrancia de la programación funcional desde su inicio, con el objetivo de una integración sin problemas y de bajo esfuerzo en otras aplicaciones de LLM para mejorar las capacidades. Nuestros resultados experimentales en el conjunto de pruebas de referencia GAIA revelan que el agente Sibyl instanciado con GPT-4 logra un rendimiento de vanguardia con una puntuación promedio del 34.55%, en comparación con otros agentes basados en GPT-4. Esperamos que Sibyl pueda inspirar soluciones de agentes basados en LLM más confiables y reutilizables para abordar tareas complejas de razonamiento del mundo real.
English
Existing agents based on large language models (LLMs) demonstrate robust
problem-solving capabilities by integrating LLMs' inherent knowledge, strong
in-context learning and zero-shot capabilities, and the use of tools combined
with intricately designed LLM invocation workflows by humans. However, these
agents still exhibit shortcomings in long-term reasoning and under-use the
potential of existing tools, leading to noticeable deficiencies in complex
real-world reasoning scenarios. To address these limitations, we introduce
Sibyl, a simple yet powerful LLM-based agent framework designed to tackle
complex reasoning tasks by efficiently leveraging a minimal set of tools.
Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global
workspace to enhance the management and sharing of knowledge and conversation
history throughout the system. Furthermore, guided by Society of Mind Theory,
Sibyl implements a multi-agent debate-based jury to self-refine the final
answers, ensuring a comprehensive and balanced approach. This approach aims to
reduce system complexity while expanding the scope of problems solvable-from
matters typically resolved by humans in minutes to those requiring hours or
even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl
has been designed with a focus on scalability and ease of debugging by
incorporating the concept of reentrancy from functional programming from its
inception, with the aim of seamless and low effort integration in other LLM
applications to improve capabilities. Our experimental results on the GAIA
benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves
state-of-the-art performance with an average score of 34.55%, compared to other
agents based on GPT-4. We hope that Sibyl can inspire more reliable and
reusable LLM-based agent solutions to address complex real-world reasoning
tasks.Summary
AI-Generated Summary