ChatPaper.aiChatPaper

ChatQA 2: Преодоление разрыва собственных LLM в длинном контексте и RAG Возможности

ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

July 19, 2024
Авторы: Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

Аннотация

В данной работе мы представляем ChatQA 2, модель на основе Llama3, разработанную для сокрытия разрыва между общедоступными LLM и ведущими собственными моделями (например, GPT-4-Turbo) в понимании длинного контекста и возможностях генерации с увеличенным поиском (RAG). Эти две возможности являются важными для LLM в обработке больших объемов информации, которые не умещаются в один запрос, и дополняют друг друга в зависимости от конечных задач и вычислительных бюджетов. Мы представляем детальный рецепт продолжения обучения для расширения окна контекста базовой модели Llama3-70B с 8K до 128K токенов, а также трехэтапный процесс настройки инструкций для улучшения следования инструкциям модели, производительности RAG и способностей понимания длинного контекста. Наши результаты показывают, что модель Llama3-ChatQA-2-70B достигает точности, сравнимой с GPT-4-Turbo-2024-0409 на многих задачах понимания длинного контекста и превосходит ее в бенчмарке RAG. Интересно, что мы обнаружили, что передовой поисковик длинного контекста может уменьшить проблему фрагментации контекста top-k в RAG, дополнительно улучшая результаты на основе RAG для задач понимания длинного контекста. Мы также предоставляем обширные сравнения между решениями RAG и длинного контекста, используя передовые длинно-контекстные LLM.
English
In this work, we introduce ChatQA 2, a Llama3-based model designed to bridge the gap between open-access LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model achieves accuracy comparable to GPT-4-Turbo-2024-0409 on many long-context understanding tasks and surpasses it on the RAG benchmark. Interestingly, we find that the state-of-the-art long-context retriever can alleviate the top-k context fragmentation issue in RAG, further improving RAG-based results for long-context understanding tasks. We also provide extensive comparisons between RAG and long-context solutions using state-of-the-art long-context LLMs.

Summary

AI-Generated Summary

PDF275November 28, 2024