LongAgent: Escalando Modelos de Lenguaje a Contextos de 128k mediante Colaboración Multi-Agente
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration
February 18, 2024
Autores: Jun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en la comprensión del lenguaje y la ejecución de tareas de razonamiento complejas. Sin embargo, los LLMs con ventanas de contexto largas han sido notorios por sus costosos procesos de entrenamiento y su alta latencia en la inferencia. Incluso los modelos más avanzados, como GPT-4 y Claude2, a menudo cometen errores al procesar entradas de más de 100k tokens, un fenómeno también conocido como "perdido en el medio". En este artículo, proponemos LongAgent, un método basado en la colaboración multiagente, que escala LLMs (por ejemplo, LLaMA) a un contexto de 128K y demuestra una potencial superioridad en el procesamiento de textos largos en comparación con GPT-4. En LongAgent, un líder es responsable de comprender la intención del usuario y dirigir a los miembros del equipo para adquirir información de los documentos. Debido a las alucinaciones de los miembros, no es trivial para un líder obtener información precisa de las respuestas de docenas a cientos de miembros. Para abordar esto, desarrollamos un mecanismo de comunicación entre miembros para resolver los conflictos de respuestas causados por alucinaciones mediante el intercambio de información. Nuestros resultados experimentales indican que LongAgent ofrece una alternativa prometedora para el procesamiento de textos largos. El equipo de agentes instanciado con LLaMA-7B logra mejoras significativas en tareas como la recuperación de textos de 128k de longitud y la respuesta a preguntas de múltiples saltos, en comparación con GPT-4.
English
Large language models (LLMs) have demonstrated impressive performance in
understanding language and executing complex reasoning tasks. However, LLMs
with long context windows have been notorious for their expensive training
costs and high inference latency. Even the most advanced models such as GPT-4
and Claude2 often make mistakes when processing inputs of over 100k tokens, a
phenomenon also known as lost in the middle. In this paper, we propose
LongAgent, a method based on multi-agent collaboration, which scales
LLMs (e.g., LLaMA) to a context of 128K and demonstrates potential superiority
in long-text processing compared to GPT-4. In LongAgent, a leader is
responsible for understanding user intent and directing team members to acquire
information from documents. Due to members' hallucinations, it is non-trivial
for a leader to obtain accurate information from the responses of dozens to
hundreds of members. To address this, we develop an inter-member
communication mechanism to resolve response conflicts caused by hallucinations
through information sharing. Our experimental results indicate that
LongAgent offers a promising alternative for long-text processing. The
agent team instantiated with LLaMA-7B achieves significant improvements in
tasks such as 128k-long text retrieval, multi-hop question answering, compared
to GPT-4.Summary
AI-Generated Summary