LongAgent: マルチエージェント協調による128kコンテキストへの言語モデルスケーリング
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration
February 18, 2024
著者: Jun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
要旨
大規模言語モデル(LLM)は、言語理解や複雑な推論タスクの実行において印象的な性能を発揮してきました。しかし、長いコンテキストウィンドウを持つLLMは、その高額なトレーニングコストと高い推論遅延で悪名高いものです。GPT-4やClaude2のような最先端のモデルでさえ、100kトークンを超える入力の処理においてミスを犯すことがあり、これは「lost in the middle」現象としても知られています。本論文では、マルチエージェント協調に基づくLongAgentという手法を提案し、LLM(例:LLaMA)を128Kのコンテキストにスケールアップし、長文処理においてGPT-4と比較して潜在的な優位性を示します。LongAgentでは、リーダーがユーザーの意図を理解し、チームメンバーに文書から情報を取得するよう指示します。メンバーの幻覚(hallucination)により、リーダーが数十から数百のメンバーの応答から正確な情報を得ることは容易ではありません。これを解決するため、情報共有を通じて幻覚による応答の衝突を解消するメンバー間コミュニケーション機構を開発しました。実験結果は、LongAgentが長文処理において有望な代替手段を提供することを示しています。LLaMA-7Bでインスタンス化されたエージェントチームは、128k長文検索やマルチホップ質問応答などのタスクにおいて、GPT-4と比較して大幅な改善を達成しました。
English
Large language models (LLMs) have demonstrated impressive performance in
understanding language and executing complex reasoning tasks. However, LLMs
with long context windows have been notorious for their expensive training
costs and high inference latency. Even the most advanced models such as GPT-4
and Claude2 often make mistakes when processing inputs of over 100k tokens, a
phenomenon also known as lost in the middle. In this paper, we propose
LongAgent, a method based on multi-agent collaboration, which scales
LLMs (e.g., LLaMA) to a context of 128K and demonstrates potential superiority
in long-text processing compared to GPT-4. In LongAgent, a leader is
responsible for understanding user intent and directing team members to acquire
information from documents. Due to members' hallucinations, it is non-trivial
for a leader to obtain accurate information from the responses of dozens to
hundreds of members. To address this, we develop an inter-member
communication mechanism to resolve response conflicts caused by hallucinations
through information sharing. Our experimental results indicate that
LongAgent offers a promising alternative for long-text processing. The
agent team instantiated with LLaMA-7B achieves significant improvements in
tasks such as 128k-long text retrieval, multi-hop question answering, compared
to GPT-4.Summary
AI-Generated Summary