Sibyl: Einfaches, aber effektives Agenten-Framework für komplexe realweltliche Schlussfolgerungen
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning
July 15, 2024
Autoren: Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie
cs.AI
Zusammenfassung
Bestehende Agenten, die auf großen Sprachmodellen (LLMs) basieren, zeigen robuste Problemlösungsfähigkeiten, indem sie das inhärente Wissen der LLMs, starkes kontextbezogenes Lernen und Null-Schuss-Fähigkeiten integrieren sowie die Verwendung von Werkzeugen kombinieren, die von Menschen aufwendig gestaltete LLM-Aufruf-Workflows nutzen. Allerdings weisen diese Agenten immer noch Schwächen im langfristigen Denken auf und nutzen das Potenzial vorhandener Werkzeuge nicht ausreichend, was zu spürbaren Defiziten in komplexen realen Denkszenarien führt. Um diese Einschränkungen zu überwinden, stellen wir Sibyl vor, ein einfaches, aber leistungsstarkes Agenten-Framework auf Basis von LLM, das darauf ausgelegt ist, komplexe Denkaufgaben zu bewältigen, indem es effizient eine minimale Werkzeugausstattung nutzt. Inspiriert von der Global Workspace Theory integriert Sibyl einen globalen Arbeitsbereich, um das Management und den Austausch von Wissen und Gesprächsverlauf im gesamten System zu verbessern. Darüber hinaus implementiert Sibyl, geleitet von der Society of Mind Theory, eine Jury basierend auf einem Multi-Agenten-Debattensystem zur Selbstverfeinerung der endgültigen Antworten, um einen umfassenden und ausgewogenen Ansatz zu gewährleisten. Dieser Ansatz zielt darauf ab, die Systemkomplexität zu reduzieren und den Umfang der lösbaren Probleme zu erweitern - von Angelegenheiten, die typischerweise von Menschen in Minuten gelöst werden, bis hin zu solchen, die Stunden oder sogar Tage erfordern, und so einen Übergang vom System-1- zum System-2-Denken zu erleichtern. Sibyl wurde mit Fokus auf Skalierbarkeit und einfache Fehlersuche entworfen, indem das Konzept der Rekursion aus der funktionalen Programmierung von Anfang an integriert wurde, mit dem Ziel einer nahtlosen und geringen Integrationsanstrengung in andere LLM-Anwendungen zur Verbesserung der Fähigkeiten. Unsere experimentellen Ergebnisse auf dem GAIA-Benchmark-Testset zeigen, dass der mit GPT-4 instanziierte Sibyl-Agent eine Spitzenleistung mit einem durchschnittlichen Score von 34,55% erreicht, im Vergleich zu anderen Agenten, die auf GPT-4 basieren. Wir hoffen, dass Sibyl zuverlässigere und wiederverwendbare Agentenlösungen auf LLM-Basis inspirieren kann, um komplexe Denkaufgaben in der realen Welt anzugehen.
English
Existing agents based on large language models (LLMs) demonstrate robust
problem-solving capabilities by integrating LLMs' inherent knowledge, strong
in-context learning and zero-shot capabilities, and the use of tools combined
with intricately designed LLM invocation workflows by humans. However, these
agents still exhibit shortcomings in long-term reasoning and under-use the
potential of existing tools, leading to noticeable deficiencies in complex
real-world reasoning scenarios. To address these limitations, we introduce
Sibyl, a simple yet powerful LLM-based agent framework designed to tackle
complex reasoning tasks by efficiently leveraging a minimal set of tools.
Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global
workspace to enhance the management and sharing of knowledge and conversation
history throughout the system. Furthermore, guided by Society of Mind Theory,
Sibyl implements a multi-agent debate-based jury to self-refine the final
answers, ensuring a comprehensive and balanced approach. This approach aims to
reduce system complexity while expanding the scope of problems solvable-from
matters typically resolved by humans in minutes to those requiring hours or
even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl
has been designed with a focus on scalability and ease of debugging by
incorporating the concept of reentrancy from functional programming from its
inception, with the aim of seamless and low effort integration in other LLM
applications to improve capabilities. Our experimental results on the GAIA
benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves
state-of-the-art performance with an average score of 34.55%, compared to other
agents based on GPT-4. We hope that Sibyl can inspire more reliable and
reusable LLM-based agent solutions to address complex real-world reasoning
tasks.Summary
AI-Generated Summary