Сибил: простая, но эффективная агентская платформа для сложного реального мирового рассуждения
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning
July 15, 2024
Авторы: Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie
cs.AI
Аннотация
Существующие агенты на основе больших языковых моделей (БЯМ) демонстрируют устойчивые возможности решения проблем путем интеграции врожденных знаний БЯМ, сильного обучения в контексте и возможностей нулевого шота, а также использования инструментов в сочетании с тщательно разработанными рабочими процессами вызова БЯМ людьми. Однако эти агенты все еще проявляют недостатки в долгосрочном рассуждении и недостаточно используют потенциал существующих инструментов, что приводит к заметным недостаткам в сложных сценариях рассуждения в реальном мире. Для преодоления этих ограничений мы представляем Sibyl - простую, но мощную архитектуру агента на основе БЯМ, разработанную для решения сложных задач рассуждения путем эффективного использования минимального набора инструментов. Вдохновленная теорией глобального рабочего пространства, Sibyl включает глобальное рабочее пространство для улучшения управления и обмена знаниями и историей разговоров по всей системе. Более того, руководствуясь теорией общества разума, Sibyl реализует многозадачный дебатный жюри на основе агентов для самоусовершенствования окончательных ответов, обеспечивая всеобъемлющий и сбалансированный подход. Этот подход направлен на уменьшение сложности системы, расширение круга решаемых проблем - от вопросов, обычно решаемых людьми за минуты, до тех, требующих часов или даже дней, тем самым облегчая переход от мышления системы-1 к мышлению системы-2. Sibyl разработана с упором на масштабируемость и удобство отладки, включая концепцию реентрансности из функционального программирования с самого начала, с целью легкой и низкозатратной интеграции в другие приложения БЯМ для улучшения возможностей. Наши экспериментальные результаты на тестовом наборе данных GAIA показывают, что агент Sibyl, созданный с использованием GPT-4, достигает современной производительности со средним показателем 34,55%, по сравнению с другими агентами на основе GPT-4. Мы надеемся, что Sibyl может вдохновить на создание более надежных и многократно используемых решений агентов на основе БЯМ для решения сложных задач рассуждения в реальном мире.
English
Existing agents based on large language models (LLMs) demonstrate robust
problem-solving capabilities by integrating LLMs' inherent knowledge, strong
in-context learning and zero-shot capabilities, and the use of tools combined
with intricately designed LLM invocation workflows by humans. However, these
agents still exhibit shortcomings in long-term reasoning and under-use the
potential of existing tools, leading to noticeable deficiencies in complex
real-world reasoning scenarios. To address these limitations, we introduce
Sibyl, a simple yet powerful LLM-based agent framework designed to tackle
complex reasoning tasks by efficiently leveraging a minimal set of tools.
Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global
workspace to enhance the management and sharing of knowledge and conversation
history throughout the system. Furthermore, guided by Society of Mind Theory,
Sibyl implements a multi-agent debate-based jury to self-refine the final
answers, ensuring a comprehensive and balanced approach. This approach aims to
reduce system complexity while expanding the scope of problems solvable-from
matters typically resolved by humans in minutes to those requiring hours or
even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl
has been designed with a focus on scalability and ease of debugging by
incorporating the concept of reentrancy from functional programming from its
inception, with the aim of seamless and low effort integration in other LLM
applications to improve capabilities. Our experimental results on the GAIA
benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves
state-of-the-art performance with an average score of 34.55%, compared to other
agents based on GPT-4. We hope that Sibyl can inspire more reliable and
reusable LLM-based agent solutions to address complex real-world reasoning
tasks.Summary
AI-Generated Summary