Sibyl: Estrutura de Agente Simples porém Efetiva para Raciocínio Complexo no Mundo Real
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning
July 15, 2024
Autores: Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie
cs.AI
Resumo
Agentes existentes baseados em grandes modelos de linguagem (LLMs) demonstram capacidades robustas de resolução de problemas ao integrar o conhecimento inerente dos LLMs, forte aprendizado em contexto e capacidades de zero-shot, e o uso de ferramentas combinadas com fluxos de invocação de LLMs intricadamente projetados por humanos. No entanto, esses agentes ainda apresentam deficiências em raciocínio de longo prazo e subutilizam o potencial de ferramentas existentes, resultando em deficiências perceptíveis em cenários complexos de raciocínio do mundo real. Para lidar com essas limitações, apresentamos Sibyl, um framework de agente baseado em LLM simples, porém poderoso, projetado para enfrentar tarefas de raciocínio complexas ao alavancar de forma eficiente um conjunto mínimo de ferramentas. Inspirado na Teoria do Espaço de Trabalho Global, Sibyl incorpora um espaço de trabalho global para aprimorar a gestão e compartilhamento de conhecimento e histórico de conversas em todo o sistema. Além disso, guiado pela Teoria da Sociedade da Mente, Sibyl implementa um júri baseado em debates de múltiplos agentes para auto-refinar as respostas finais, garantindo uma abordagem abrangente e equilibrada. Este método visa reduzir a complexidade do sistema enquanto expande o escopo de problemas solucionáveis - de questões normalmente resolvidas por humanos em minutos para aquelas que exigem horas ou até mesmo dias, facilitando assim uma transição do pensamento do Sistema-1 para o Sistema-2. Sibyl foi projetado com foco em escalabilidade e facilidade de depuração, incorporando o conceito de reentrância da programação funcional desde sua concepção, com o objetivo de integração contínua e de baixo esforço em outras aplicações de LLM para melhorar as capacidades. Nossos resultados experimentais no conjunto de testes de benchmark GAIA revelam que o agente Sibyl instanciado com GPT-4 alcança desempenho de ponta com uma pontuação média de 34,55%, em comparação com outros agentes baseados em GPT-4. Esperamos que Sibyl possa inspirar soluções de agentes baseados em LLM mais confiáveis e reutilizáveis para lidar com tarefas complexas de raciocínio do mundo real.
English
Existing agents based on large language models (LLMs) demonstrate robust
problem-solving capabilities by integrating LLMs' inherent knowledge, strong
in-context learning and zero-shot capabilities, and the use of tools combined
with intricately designed LLM invocation workflows by humans. However, these
agents still exhibit shortcomings in long-term reasoning and under-use the
potential of existing tools, leading to noticeable deficiencies in complex
real-world reasoning scenarios. To address these limitations, we introduce
Sibyl, a simple yet powerful LLM-based agent framework designed to tackle
complex reasoning tasks by efficiently leveraging a minimal set of tools.
Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global
workspace to enhance the management and sharing of knowledge and conversation
history throughout the system. Furthermore, guided by Society of Mind Theory,
Sibyl implements a multi-agent debate-based jury to self-refine the final
answers, ensuring a comprehensive and balanced approach. This approach aims to
reduce system complexity while expanding the scope of problems solvable-from
matters typically resolved by humans in minutes to those requiring hours or
even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl
has been designed with a focus on scalability and ease of debugging by
incorporating the concept of reentrancy from functional programming from its
inception, with the aim of seamless and low effort integration in other LLM
applications to improve capabilities. Our experimental results on the GAIA
benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves
state-of-the-art performance with an average score of 34.55%, compared to other
agents based on GPT-4. We hope that Sibyl can inspire more reliable and
reusable LLM-based agent solutions to address complex real-world reasoning
tasks.