Sibyl: Framework per Agenti Semplice ma Efficace per il Ragionamento in Scenari Reali Complessi
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning
July 15, 2024
Autori: Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie
cs.AI
Abstract
Gli agenti esistenti basati su modelli linguistici di grandi dimensioni (LLM) dimostrano robuste capacità di problem-solving integrando la conoscenza intrinseca degli LLM, il forte apprendimento in contesto e le capacità zero-shot, oltre all'uso di strumenti combinati con flussi di lavoro di invocazione degli LLM progettati in modo intricato dagli esseri umani. Tuttavia, questi agenti presentano ancora carenze nel ragionamento a lungo termine e sottoutilizzano il potenziale degli strumenti esistenti, portando a evidenti deficienze negli scenari di ragionamento complessi del mondo reale. Per affrontare queste limitazioni, introduciamo Sibyl, un framework di agenti basato su LLM semplice ma potente, progettato per affrontare compiti di ragionamento complesso sfruttando in modo efficiente un insieme minimo di strumenti. Traendo ispirazione dalla Teoria dello Spazio di Lavoro Globale, Sibyl incorpora uno spazio di lavoro globale per migliorare la gestione e la condivisione della conoscenza e della cronologia delle conversazioni all'interno del sistema. Inoltre, guidato dalla Teoria della Società della Mente, Sibyl implementa una giuria basata su dibattiti multi-agente per affinare autonomamente le risposte finali, garantendo un approccio completo ed equilibrato. Questo approccio mira a ridurre la complessità del sistema espandendo al contempo l'ambito dei problemi risolvibili, da questioni tipicamente risolte dagli esseri umani in pochi minuti a quelle che richiedono ore o addirittura giorni, facilitando così un passaggio dal pensiero di Sistema-1 a quello di Sistema-2. Sibyl è stato progettato con un focus sulla scalabilità e sulla facilità di debug, incorporando fin dall'inizio il concetto di rientranza della programmazione funzionale, con l'obiettivo di un'integrazione senza soluzione di continuità e a basso sforzo in altre applicazioni LLM per migliorarne le capacità. I nostri risultati sperimentali sul set di test del benchmark GAIA rivelano che l'agente Sibyl istanziato con GPT-4 raggiunge prestazioni all'avanguardia con un punteggio medio del 34,55%, rispetto ad altri agenti basati su GPT-4. Speriamo che Sibyl possa ispirare soluzioni di agenti basati su LLM più affidabili e riutilizzabili per affrontare compiti di ragionamento complessi nel mondo reale.
English
Existing agents based on large language models (LLMs) demonstrate robust
problem-solving capabilities by integrating LLMs' inherent knowledge, strong
in-context learning and zero-shot capabilities, and the use of tools combined
with intricately designed LLM invocation workflows by humans. However, these
agents still exhibit shortcomings in long-term reasoning and under-use the
potential of existing tools, leading to noticeable deficiencies in complex
real-world reasoning scenarios. To address these limitations, we introduce
Sibyl, a simple yet powerful LLM-based agent framework designed to tackle
complex reasoning tasks by efficiently leveraging a minimal set of tools.
Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global
workspace to enhance the management and sharing of knowledge and conversation
history throughout the system. Furthermore, guided by Society of Mind Theory,
Sibyl implements a multi-agent debate-based jury to self-refine the final
answers, ensuring a comprehensive and balanced approach. This approach aims to
reduce system complexity while expanding the scope of problems solvable-from
matters typically resolved by humans in minutes to those requiring hours or
even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl
has been designed with a focus on scalability and ease of debugging by
incorporating the concept of reentrancy from functional programming from its
inception, with the aim of seamless and low effort integration in other LLM
applications to improve capabilities. Our experimental results on the GAIA
benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves
state-of-the-art performance with an average score of 34.55%, compared to other
agents based on GPT-4. We hope that Sibyl can inspire more reliable and
reusable LLM-based agent solutions to address complex real-world reasoning
tasks.