LongAgent: Skalierung von Sprachmodellen auf 128k Kontext durch Multi-Agenten-Kollaboration

papers.abstract

Große Sprachmodelle (LLMs) haben beeindruckende Leistungen beim Verständnis von Sprache und der Ausführung komplexer Denkaufgaben gezeigt. Allerdings sind LLMs mit langen Kontextfenstern für ihre hohen Trainingskosten und die lange Inferenzlatenz bekannt. Selbst die fortschrittlichsten Modelle wie GPT-4 und Claude2 machen oft Fehler bei der Verarbeitung von Eingaben mit über 100.000 Tokens, ein Phänomen, das auch als „lost in the middle“ bekannt ist. In diesem Artikel schlagen wir LongAgent vor, eine Methode, die auf der Zusammenarbeit mehrerer Agenten basiert und LLMs (z. B. LLaMA) auf einen Kontext von 128K skaliert und ein potenzielles Überlegenheitspotenzial bei der Verarbeitung langer Texte im Vergleich zu GPT-4 aufzeigt. In LongAgent ist ein Leiter dafür verantwortlich, die Absicht des Benutzers zu verstehen und Teammitglieder anzuweisen, Informationen aus Dokumenten zu beschaffen. Aufgrund von Halluzinationen der Mitglieder ist es für einen Leiter nicht trivial, genaue Informationen aus den Antworten von Dutzenden bis Hunderten von Mitgliedern zu erhalten. Um dies zu beheben, entwickeln wir einen Kommunikationsmechanismus zwischen den Mitgliedern, um Antwortkonflikte, die durch Halluzinationen verursacht werden, durch Informationsaustausch zu lösen. Unsere experimentellen Ergebnisse zeigen, dass LongAgent eine vielversprechende Alternative für die Verarbeitung langer Texte bietet. Das mit LLaMA-7B instanziierte Agententeam erzielt signifikante Verbesserungen bei Aufgaben wie der Abfrage von 128k-langen Texten und mehrstufigen Frage-Antwort-Aufgaben im Vergleich zu GPT-4.

English

Large language models (LLMs) have demonstrated impressive performance in understanding language and executing complex reasoning tasks. However, LLMs with long context windows have been notorious for their expensive training costs and high inference latency. Even the most advanced models such as GPT-4 and Claude2 often make mistakes when processing inputs of over 100k tokens, a phenomenon also known as lost in the middle. In this paper, we propose LongAgent, a method based on multi-agent collaboration, which scales LLMs (e.g., LLaMA) to a context of 128K and demonstrates potential superiority in long-text processing compared to GPT-4. In LongAgent, a leader is responsible for understanding user intent and directing team members to acquire information from documents. Due to members' hallucinations, it is non-trivial for a leader to obtain accurate information from the responses of dozens to hundreds of members. To address this, we develop an inter-member communication mechanism to resolve response conflicts caused by hallucinations through information sharing. Our experimental results indicate that LongAgent offers a promising alternative for long-text processing. The agent team instantiated with LLaMA-7B achieves significant improvements in tasks such as 128k-long text retrieval, multi-hop question answering, compared to GPT-4.

LongAgent: Skalierung von Sprachmodellen auf 128k Kontext durch Multi-Agenten-Kollaboration

LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

papers.abstract

Support