Sibyl: Een eenvoudig maar effectief agentframework voor complexe redenering in de echte wereld
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning
July 15, 2024
Auteurs: Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie
cs.AI
Samenvatting
Bestaande agents gebaseerd op grote taalmodellen (LLMs) tonen robuuste probleemoplossende vermogens door de inherente kennis van LLMs, sterke in-context leervaardigheden en zero-shot-mogelijkheden te integreren, evenals het gebruik van tools in combinatie met zorgvuldig ontworpen LLM-aanroepworkflows door mensen. Deze agents vertonen echter nog steeds tekortkomingen in langetermijnredenering en benutten het potentieel van bestaande tools onvoldoende, wat leidt tot opvallende tekortkomingen in complexe real-world redeneerscenario's. Om deze beperkingen aan te pakken, introduceren we Sibyl, een eenvoudig maar krachtig LLM-gebaseerd agentframework dat is ontworpen om complexe redeneertaken aan te pakken door efficiënt gebruik te maken van een minimale set tools. Geïnspireerd door de Global Workspace Theory, integreert Sibyl een globale werkruimte om het beheer en de uitwisseling van kennis en gespreksgeschiedenis binnen het systeem te verbeteren. Bovendien, geleid door de Society of Mind Theory, implementeert Sibyl een multi-agent debat-gebaseerde jury om de uiteindelijke antwoorden zelf te verfijnen, wat zorgt voor een uitgebreide en evenwichtige aanpak. Deze aanpak heeft als doel de systeemcomplexiteit te verminderen terwijl het bereik van oplosbare problemen wordt uitgebreid—van zaken die doorgaans door mensen in minuten worden opgelost tot zaken die uren of zelfs dagen vergen, waardoor een verschuiving van System-1 naar System-2 denken wordt gefaciliteerd. Sibyl is ontworpen met een focus op schaalbaarheid en gemakkelijke debugbaarheid door het concept van reentrantie uit functioneel programmeren vanaf het begin te integreren, met als doel naadloze en moeiteloze integratie in andere LLM-toepassingen om de mogelijkheden te verbeteren. Onze experimentele resultaten op de GAIA-benchmarktestset laten zien dat de Sibyl-agent geïnstantieerd met GPT-4 state-of-the-art prestaties bereikt met een gemiddelde score van 34,55%, vergeleken met andere agents gebaseerd op GPT-4. We hopen dat Sibyl meer betrouwbare en herbruikbare LLM-gebaseerde agentoplossingen kan inspireren om complexe real-world redeneertaken aan te pakken.
English
Existing agents based on large language models (LLMs) demonstrate robust
problem-solving capabilities by integrating LLMs' inherent knowledge, strong
in-context learning and zero-shot capabilities, and the use of tools combined
with intricately designed LLM invocation workflows by humans. However, these
agents still exhibit shortcomings in long-term reasoning and under-use the
potential of existing tools, leading to noticeable deficiencies in complex
real-world reasoning scenarios. To address these limitations, we introduce
Sibyl, a simple yet powerful LLM-based agent framework designed to tackle
complex reasoning tasks by efficiently leveraging a minimal set of tools.
Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global
workspace to enhance the management and sharing of knowledge and conversation
history throughout the system. Furthermore, guided by Society of Mind Theory,
Sibyl implements a multi-agent debate-based jury to self-refine the final
answers, ensuring a comprehensive and balanced approach. This approach aims to
reduce system complexity while expanding the scope of problems solvable-from
matters typically resolved by humans in minutes to those requiring hours or
even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl
has been designed with a focus on scalability and ease of debugging by
incorporating the concept of reentrancy from functional programming from its
inception, with the aim of seamless and low effort integration in other LLM
applications to improve capabilities. Our experimental results on the GAIA
benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves
state-of-the-art performance with an average score of 34.55%, compared to other
agents based on GPT-4. We hope that Sibyl can inspire more reliable and
reusable LLM-based agent solutions to address complex real-world reasoning
tasks.