ChatPaper.aiChatPaper

Sibyl: Een eenvoudig maar effectief agentframework voor complexe redenering in de echte wereld

Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

July 15, 2024
Auteurs: Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie
cs.AI

Samenvatting

Bestaande agents gebaseerd op grote taalmodellen (LLMs) tonen robuuste probleemoplossende vermogens door de inherente kennis van LLMs, sterke in-context leervaardigheden en zero-shot-mogelijkheden te integreren, evenals het gebruik van tools in combinatie met zorgvuldig ontworpen LLM-aanroepworkflows door mensen. Deze agents vertonen echter nog steeds tekortkomingen in langetermijnredenering en benutten het potentieel van bestaande tools onvoldoende, wat leidt tot opvallende tekortkomingen in complexe real-world redeneerscenario's. Om deze beperkingen aan te pakken, introduceren we Sibyl, een eenvoudig maar krachtig LLM-gebaseerd agentframework dat is ontworpen om complexe redeneertaken aan te pakken door efficiënt gebruik te maken van een minimale set tools. Geïnspireerd door de Global Workspace Theory, integreert Sibyl een globale werkruimte om het beheer en de uitwisseling van kennis en gespreksgeschiedenis binnen het systeem te verbeteren. Bovendien, geleid door de Society of Mind Theory, implementeert Sibyl een multi-agent debat-gebaseerde jury om de uiteindelijke antwoorden zelf te verfijnen, wat zorgt voor een uitgebreide en evenwichtige aanpak. Deze aanpak heeft als doel de systeemcomplexiteit te verminderen terwijl het bereik van oplosbare problemen wordt uitgebreid—van zaken die doorgaans door mensen in minuten worden opgelost tot zaken die uren of zelfs dagen vergen, waardoor een verschuiving van System-1 naar System-2 denken wordt gefaciliteerd. Sibyl is ontworpen met een focus op schaalbaarheid en gemakkelijke debugbaarheid door het concept van reentrantie uit functioneel programmeren vanaf het begin te integreren, met als doel naadloze en moeiteloze integratie in andere LLM-toepassingen om de mogelijkheden te verbeteren. Onze experimentele resultaten op de GAIA-benchmarktestset laten zien dat de Sibyl-agent geïnstantieerd met GPT-4 state-of-the-art prestaties bereikt met een gemiddelde score van 34,55%, vergeleken met andere agents gebaseerd op GPT-4. We hopen dat Sibyl meer betrouwbare en herbruikbare LLM-gebaseerde agentoplossingen kan inspireren om complexe real-world redeneertaken aan te pakken.
English
Existing agents based on large language models (LLMs) demonstrate robust problem-solving capabilities by integrating LLMs' inherent knowledge, strong in-context learning and zero-shot capabilities, and the use of tools combined with intricately designed LLM invocation workflows by humans. However, these agents still exhibit shortcomings in long-term reasoning and under-use the potential of existing tools, leading to noticeable deficiencies in complex real-world reasoning scenarios. To address these limitations, we introduce Sibyl, a simple yet powerful LLM-based agent framework designed to tackle complex reasoning tasks by efficiently leveraging a minimal set of tools. Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global workspace to enhance the management and sharing of knowledge and conversation history throughout the system. Furthermore, guided by Society of Mind Theory, Sibyl implements a multi-agent debate-based jury to self-refine the final answers, ensuring a comprehensive and balanced approach. This approach aims to reduce system complexity while expanding the scope of problems solvable-from matters typically resolved by humans in minutes to those requiring hours or even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl has been designed with a focus on scalability and ease of debugging by incorporating the concept of reentrancy from functional programming from its inception, with the aim of seamless and low effort integration in other LLM applications to improve capabilities. Our experimental results on the GAIA benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves state-of-the-art performance with an average score of 34.55%, compared to other agents based on GPT-4. We hope that Sibyl can inspire more reliable and reusable LLM-based agent solutions to address complex real-world reasoning tasks.
PDF194February 7, 2026