ChatQA 2: Het overbruggen van de kloof naar propriëtaire LLM's in lange context en RAG-mogelijkheden
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
July 19, 2024
Auteurs: Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
Samenvatting
In dit werk introduceren we ChatQA 2, een Llama3-gebaseerd model dat is ontworpen om de kloof te overbruggen tussen open-access LLM's en toonaangevende propriëtaire modellen (bijv. GPT-4-Turbo) op het gebied van lang-contextbegrip en retrieval-augmented generation (RAG)-mogelijkheden. Deze twee capaciteiten zijn essentieel voor LLM's om grote hoeveelheden informatie te verwerken die niet in een enkele prompt passen en zijn complementair aan elkaar, afhankelijk van de downstream taken en rekenbudgetten. We presenteren een gedetailleerd voortgezet trainingsrecept om het contextvenster van Llama3-70B-base uit te breiden van 8K naar 128K tokens, samen met een drietraps instructieafstemmingsproces om het model's instructievolging, RAG-prestaties en lang-contextbegrip te verbeteren. Onze resultaten tonen aan dat het Llama3-ChatQA-2-70B model een nauwkeurigheid bereikt die vergelijkbaar is met GPT-4-Turbo-2024-0409 op veel lang-contextbegriptaken en het overtreft op de RAG-benchmark. Interessant genoeg vinden we dat de state-of-the-art lang-contextretriever het top-k contextfragmentatieprobleem in RAG kan verlichten, wat de RAG-gebaseerde resultaten voor lang-contextbegriptaken verder verbetert. We bieden ook uitgebreide vergelijkingen tussen RAG en lang-contextoplossingen met behulp van state-of-the-art lang-context LLM's.
English
In this work, we introduce ChatQA 2, a Llama3-based model designed to bridge
the gap between open-access LLMs and leading proprietary models (e.g.,
GPT-4-Turbo) in long-context understanding and retrieval-augmented generation
(RAG) capabilities. These two capabilities are essential for LLMs to process
large volumes of information that cannot fit into a single prompt and are
complementary to each other, depending on the downstream tasks and
computational budgets. We present a detailed continued training recipe to
extend the context window of Llama3-70B-base from 8K to 128K tokens, along with
a three-stage instruction tuning process to enhance the model's
instruction-following, RAG performance, and long-context understanding
capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model
achieves accuracy comparable to GPT-4-Turbo-2024-0409 on many long-context
understanding tasks and surpasses it on the RAG benchmark. Interestingly, we
find that the state-of-the-art long-context retriever can alleviate the top-k
context fragmentation issue in RAG, further improving RAG-based results for
long-context understanding tasks. We also provide extensive comparisons between
RAG and long-context solutions using state-of-the-art long-context LLMs.