LongAgent: Escalonando Modelos de Linguagem para Contexto de 128k por meio de Colaboração Multiagente
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration
February 18, 2024
Autores: Jun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho impressionante na compreensão de linguagem e na execução de tarefas complexas de raciocínio. No entanto, LLMs com janelas de contexto longas são notórios por seus custos elevados de treinamento e alta latência de inferência. Mesmo os modelos mais avançados, como GPT-4 e Claude2, frequentemente cometem erros ao processar entradas com mais de 100 mil tokens, um fenômeno também conhecido como "lost in the middle" (perdido no meio). Neste artigo, propomos o LongAgent, um método baseado na colaboração de múltiplos agentes, que escala LLMs (por exemplo, LLaMA) para um contexto de 128K e demonstra potencial superioridade no processamento de textos longos em comparação com o GPT-4. No LongAgent, um líder é responsável por compreender a intenção do usuário e direcionar os membros da equipe para adquirir informações dos documentos. Devido às alucinações dos membros, não é trivial para o líder obter informações precisas a partir das respostas de dezenas a centenas de membros. Para resolver isso, desenvolvemos um mecanismo de comunicação entre membros para resolver conflitos de respostas causados por alucinações por meio do compartilhamento de informações. Nossos resultados experimentais indicam que o LongAgent oferece uma alternativa promissora para o processamento de textos longos. A equipe de agentes instanciada com LLaMA-7B alcança melhorias significativas em tarefas como recuperação de textos de 128k e respostas a perguntas de múltiplos saltos, em comparação com o GPT-4.
English
Large language models (LLMs) have demonstrated impressive performance in
understanding language and executing complex reasoning tasks. However, LLMs
with long context windows have been notorious for their expensive training
costs and high inference latency. Even the most advanced models such as GPT-4
and Claude2 often make mistakes when processing inputs of over 100k tokens, a
phenomenon also known as lost in the middle. In this paper, we propose
LongAgent, a method based on multi-agent collaboration, which scales
LLMs (e.g., LLaMA) to a context of 128K and demonstrates potential superiority
in long-text processing compared to GPT-4. In LongAgent, a leader is
responsible for understanding user intent and directing team members to acquire
information from documents. Due to members' hallucinations, it is non-trivial
for a leader to obtain accurate information from the responses of dozens to
hundreds of members. To address this, we develop an inter-member
communication mechanism to resolve response conflicts caused by hallucinations
through information sharing. Our experimental results indicate that
LongAgent offers a promising alternative for long-text processing. The
agent team instantiated with LLaMA-7B achieves significant improvements in
tasks such as 128k-long text retrieval, multi-hop question answering, compared
to GPT-4.