Sibyl: 複雑な現実世界の推論のためのシンプルかつ効果的なエージェントフレームワーク
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning
July 15, 2024
著者: Yulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie
cs.AI
要旨
大規模言語モデル(LLM)に基づく既存のエージェントは、LLMの内在する知識、強力なインコンテキスト学習およびゼロショット能力、そして人間が設計した複雑なLLM呼び出しワークフローとツールの使用を統合することで、堅牢な問題解決能力を発揮しています。しかし、これらのエージェントは依然として長期的な推論において欠点を示し、既存のツールの潜在能力を十分に活用していないため、複雑な現実世界の推論シナリオにおいて顕著な不足が見られます。これらの制限を解決するため、我々はSibylを紹介します。これは、最小限のツールセットを効率的に活用して複雑な推論タスクに取り組むように設計された、シンプルでありながら強力なLLMベースのエージェントフレームワークです。Sibylは、グローバルワークスペース理論に着想を得て、システム全体で知識と会話履歴の管理と共有を強化するためのグローバルワークスペースを組み込んでいます。さらに、マインドの社会理論に基づき、Sibylはマルチエージェント討論型のジャリーを実装し、最終的な回答を自己改善することで、包括的かつバランスの取れたアプローチを確保します。このアプローチは、システムの複雑さを軽減しながら、解決可能な問題の範囲を拡大することを目指しています。つまり、通常人間が数分で解決する問題から、数時間または数日を要する問題まで対応し、システム1思考からシステム2思考への移行を促進します。Sibylは、スケーラビリティとデバッグの容易さに焦点を当てて設計されており、関数型プログラミングから再入可能性の概念を最初から組み込むことで、他のLLMアプリケーションへのシームレスで低労力の統合を目指し、能力を向上させます。GAIAベンチマークテストセットでの実験結果は、GPT-4でインスタンス化されたSibylエージェントが、他のGPT-4ベースのエージェントと比較して、平均スコア34.55%で最先端のパフォーマンスを達成することを明らかにしています。我々は、Sibylが、複雑な現実世界の推論タスクに対処するための、より信頼性が高く再利用可能なLLMベースのエージェントソリューションをさらに刺激することを期待しています。
English
Existing agents based on large language models (LLMs) demonstrate robust
problem-solving capabilities by integrating LLMs' inherent knowledge, strong
in-context learning and zero-shot capabilities, and the use of tools combined
with intricately designed LLM invocation workflows by humans. However, these
agents still exhibit shortcomings in long-term reasoning and under-use the
potential of existing tools, leading to noticeable deficiencies in complex
real-world reasoning scenarios. To address these limitations, we introduce
Sibyl, a simple yet powerful LLM-based agent framework designed to tackle
complex reasoning tasks by efficiently leveraging a minimal set of tools.
Drawing inspiration from Global Workspace Theory, Sibyl incorporates a global
workspace to enhance the management and sharing of knowledge and conversation
history throughout the system. Furthermore, guided by Society of Mind Theory,
Sibyl implements a multi-agent debate-based jury to self-refine the final
answers, ensuring a comprehensive and balanced approach. This approach aims to
reduce system complexity while expanding the scope of problems solvable-from
matters typically resolved by humans in minutes to those requiring hours or
even days, thus facilitating a shift from System-1 to System-2 thinking. Sibyl
has been designed with a focus on scalability and ease of debugging by
incorporating the concept of reentrancy from functional programming from its
inception, with the aim of seamless and low effort integration in other LLM
applications to improve capabilities. Our experimental results on the GAIA
benchmark test set reveal that the Sibyl agent instantiated with GPT-4 achieves
state-of-the-art performance with an average score of 34.55%, compared to other
agents based on GPT-4. We hope that Sibyl can inspire more reliable and
reusable LLM-based agent solutions to address complex real-world reasoning
tasks.Summary
AI-Generated Summary