ChatPaper.aiChatPaper

ChatQA 2: Acortando la Brecha hacia Modelos de Lenguaje de Máquina Propietarios en Contextos Largos y RAG.

ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

July 19, 2024
Autores: Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

Resumen

En este trabajo, presentamos ChatQA 2, un modelo basado en Llama3 diseñado para cerrar la brecha entre los LLM de acceso abierto y los principales modelos propietarios (por ejemplo, GPT-4-Turbo) en capacidades de comprensión de largo contexto y generación con recuperación aumentada (RAG). Estas dos capacidades son esenciales para que los LLM puedan procesar grandes volúmenes de información que no pueden encajar en una sola indicación y son complementarias entre sí, dependiendo de las tareas posteriores y los recursos computacionales. Presentamos una detallada receta de entrenamiento continuo para extender la ventana de contexto de Llama3-70B-base de 8K a 128K tokens, junto con un proceso de ajuste de instrucciones de tres etapas para mejorar el seguimiento de instrucciones del modelo, el rendimiento de RAG y las capacidades de comprensión de largo contexto. Nuestros resultados demuestran que el modelo Llama3-ChatQA-2-70B logra una precisión comparable a GPT-4-Turbo-2024-0409 en muchas tareas de comprensión de largo contexto y lo supera en la prueba de RAG. Interesantemente, encontramos que el recuperador de largo contexto de última generación puede aliviar el problema de fragmentación del contexto superior en RAG, mejorando aún más los resultados basados en RAG para tareas de comprensión de largo contexto. También proporcionamos extensas comparaciones entre soluciones de RAG y de largo contexto utilizando LLM de largo contexto de última generación.
English
In this work, we introduce ChatQA 2, a Llama3-based model designed to bridge the gap between open-access LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model achieves accuracy comparable to GPT-4-Turbo-2024-0409 on many long-context understanding tasks and surpasses it on the RAG benchmark. Interestingly, we find that the state-of-the-art long-context retriever can alleviate the top-k context fragmentation issue in RAG, further improving RAG-based results for long-context understanding tasks. We also provide extensive comparisons between RAG and long-context solutions using state-of-the-art long-context LLMs.

Summary

AI-Generated Summary

PDF275November 28, 2024