LongAgent: Scalabilità dei Modelli Linguistici a Contesti di 128k Tramite Collaborazione Multi-Agente
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration
February 18, 2024
Autori: Jun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni impressionanti nella comprensione del linguaggio e nell'esecuzione di compiti di ragionamento complesso. Tuttavia, gli LLM con finestre di contesto lunghe sono notoriamente costosi da addestrare e presentano un'elevata latenza durante l'inferenza. Anche i modelli più avanzati come GPT-4 e Claude2 commettono spesso errori quando elaborano input superiori a 100k token, un fenomeno noto anche come "lost in the middle". In questo articolo, proponiamo LongAgent, un metodo basato sulla collaborazione multi-agente, che scala gli LLM (ad esempio, LLaMA) a un contesto di 128K e dimostra una potenziale superiorità nell'elaborazione di testi lunghi rispetto a GPT-4. In LongAgent, un leader è responsabile della comprensione dell'intento dell'utente e della direzione dei membri del team per acquisire informazioni dai documenti. A causa delle allucinazioni dei membri, non è banale per un leader ottenere informazioni accurate dalle risposte di decine o centinaia di membri. Per affrontare questo problema, sviluppiamo un meccanismo di comunicazione inter-membro per risolvere i conflitti di risposta causati dalle allucinazioni attraverso la condivisione delle informazioni. I nostri risultati sperimentali indicano che LongAgent offre un'alternativa promettente per l'elaborazione di testi lunghi. Il team di agenti istanziato con LLaMA-7B ottiene miglioramenti significativi in compiti come il recupero di testi lunghi 128k e la risposta a domande multi-hop, rispetto a GPT-4.
English
Large language models (LLMs) have demonstrated impressive performance in
understanding language and executing complex reasoning tasks. However, LLMs
with long context windows have been notorious for their expensive training
costs and high inference latency. Even the most advanced models such as GPT-4
and Claude2 often make mistakes when processing inputs of over 100k tokens, a
phenomenon also known as lost in the middle. In this paper, we propose
LongAgent, a method based on multi-agent collaboration, which scales
LLMs (e.g., LLaMA) to a context of 128K and demonstrates potential superiority
in long-text processing compared to GPT-4. In LongAgent, a leader is
responsible for understanding user intent and directing team members to acquire
information from documents. Due to members' hallucinations, it is non-trivial
for a leader to obtain accurate information from the responses of dozens to
hundreds of members. To address this, we develop an inter-member
communication mechanism to resolve response conflicts caused by hallucinations
through information sharing. Our experimental results indicate that
LongAgent offers a promising alternative for long-text processing. The
agent team instantiated with LLaMA-7B achieves significant improvements in
tasks such as 128k-long text retrieval, multi-hop question answering, compared
to GPT-4.