ChatPaper.aiChatPaper

Sibyl : Un cadre d'agent simple mais efficace pour le raisonnement complexe en environnement réel

Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

July 15, 2024
Auteurs: Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie
cs.AI

Résumé

Les agents existants basés sur des modèles de langage de grande taille (LLMs) démontrent des capacités robustes de résolution de problèmes en intégrant les connaissances inhérentes des LLMs, leur forte capacité d'apprentissage en contexte et en zero-shot, ainsi que l'utilisation d'outils combinés à des workflows d'invocation de LLM minutieusement conçus par des humains. Cependant, ces agents présentent encore des lacunes dans le raisonnement à long terme et sous-utilisent le potentiel des outils existants, ce qui entraîne des déficiences notables dans les scénarios de raisonnement complexes du monde réel. Pour pallier ces limitations, nous introduisons Sibyl, un cadre d'agent basé sur les LLMs, simple mais puissant, conçu pour relever des tâches de raisonnement complexes en exploitant efficacement un ensemble minimal d'outils. S'inspirant de la théorie de l'espace de travail global, Sibyl intègre un espace de travail global pour améliorer la gestion et le partage des connaissances et de l'historique des conversations à travers le système. De plus, guidé par la théorie de la société de l'esprit, Sibyl met en œuvre un jury basé sur un débat multi-agents pour auto-affiner les réponses finales, garantissant une approche complète et équilibrée. Cette approche vise à réduire la complexité du système tout en élargissant la portée des problèmes résolubles, passant de questions typiquement résolues par les humains en quelques minutes à celles nécessitant des heures, voire des jours, facilitant ainsi une transition de la pensée de type Système-1 à celle de type Système-2. Sibyl a été conçu en mettant l'accent sur l'évolutivité et la facilité de débogage en intégrant dès sa conception le concept de réentrance issu de la programmation fonctionnelle, dans le but d'une intégration fluide et peu coûteuse dans d'autres applications LLM pour améliorer leurs capacités. Nos résultats expérimentaux sur l'ensemble de tests de référence GAIA révèlent que l'agent Sibyl instancié avec GPT-4 atteint des performances de pointe avec un score moyen de 34,55 %, par rapport à d'autres agents basés sur GPT-4. Nous espérons que Sibyl pourra inspirer des solutions d'agents basés sur les LLMs plus fiables et réutilisables pour aborder des tâches de raisonnement complexes dans le monde réel.
English
Existing agents based on large language models (LLMs) demonstrate robust problem-solving capabilities by integrating LLMs' inherent knowledge, strong in-context learning and zero-shot capabilities, and the use of tools combined with intricately designed LLM invocation workflows by humans. However, these agents still exhibit shortcomings in long-term reasoning and under-use the potential of existing tools, leading to noticeable deficiencies in complex real-world reasoning scenarios. To address these limitations, we introduce Sibyl, a simple yet powerful LLM-based agent framework designed to tackle complex reasoning tasks by efficiently leveraging a minimal set of tools. Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global workspace to enhance the management and sharing of knowledge and conversation history throughout the system. Furthermore, guided by Society of Mind Theory, Sibyl implements a multi-agent debate-based jury to self-refine the final answers, ensuring a comprehensive and balanced approach. This approach aims to reduce system complexity while expanding the scope of problems solvable-from matters typically resolved by humans in minutes to those requiring hours or even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl has been designed with a focus on scalability and ease of debugging by incorporating the concept of reentrancy from functional programming from its inception, with the aim of seamless and low effort integration in other LLM applications to improve capabilities. Our experimental results on the GAIA benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves state-of-the-art performance with an average score of 34.55%, compared to other agents based on GPT-4. We hope that Sibyl can inspire more reliable and reusable LLM-based agent solutions to address complex real-world reasoning tasks.

Summary

AI-Generated Summary

PDF184November 28, 2024