LongAgent: Skalierung von Sprachmodellen auf 128k Kontext durch Multi-Agenten-Kollaboration
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration
February 18, 2024
Autoren: Jun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben beeindruckende Leistungen beim Verständnis von Sprache und der Ausführung komplexer Denkaufgaben gezeigt. Allerdings sind LLMs mit langen Kontextfenstern für ihre hohen Trainingskosten und die lange Inferenzlatenz bekannt. Selbst die fortschrittlichsten Modelle wie GPT-4 und Claude2 machen oft Fehler bei der Verarbeitung von Eingaben mit über 100.000 Tokens, ein Phänomen, das auch als „lost in the middle“ bekannt ist. In diesem Artikel schlagen wir LongAgent vor, eine Methode, die auf der Zusammenarbeit mehrerer Agenten basiert und LLMs (z. B. LLaMA) auf einen Kontext von 128K skaliert und ein potenzielles Überlegenheitspotenzial bei der Verarbeitung langer Texte im Vergleich zu GPT-4 aufzeigt. In LongAgent ist ein Leiter dafür verantwortlich, die Absicht des Benutzers zu verstehen und Teammitglieder anzuweisen, Informationen aus Dokumenten zu beschaffen. Aufgrund von Halluzinationen der Mitglieder ist es für einen Leiter nicht trivial, genaue Informationen aus den Antworten von Dutzenden bis Hunderten von Mitgliedern zu erhalten. Um dies zu beheben, entwickeln wir einen Kommunikationsmechanismus zwischen den Mitgliedern, um Antwortkonflikte, die durch Halluzinationen verursacht werden, durch Informationsaustausch zu lösen. Unsere experimentellen Ergebnisse zeigen, dass LongAgent eine vielversprechende Alternative für die Verarbeitung langer Texte bietet. Das mit LLaMA-7B instanziierte Agententeam erzielt signifikante Verbesserungen bei Aufgaben wie der Abfrage von 128k-langen Texten und mehrstufigen Frage-Antwort-Aufgaben im Vergleich zu GPT-4.
English
Large language models (LLMs) have demonstrated impressive performance in
understanding language and executing complex reasoning tasks. However, LLMs
with long context windows have been notorious for their expensive training
costs and high inference latency. Even the most advanced models such as GPT-4
and Claude2 often make mistakes when processing inputs of over 100k tokens, a
phenomenon also known as lost in the middle. In this paper, we propose
LongAgent, a method based on multi-agent collaboration, which scales
LLMs (e.g., LLaMA) to a context of 128K and demonstrates potential superiority
in long-text processing compared to GPT-4. In LongAgent, a leader is
responsible for understanding user intent and directing team members to acquire
information from documents. Due to members' hallucinations, it is non-trivial
for a leader to obtain accurate information from the responses of dozens to
hundreds of members. To address this, we develop an inter-member
communication mechanism to resolve response conflicts caused by hallucinations
through information sharing. Our experimental results indicate that
LongAgent offers a promising alternative for long-text processing. The
agent team instantiated with LLaMA-7B achieves significant improvements in
tasks such as 128k-long text retrieval, multi-hop question answering, compared
to GPT-4.Summary
AI-Generated Summary