ChatPaper.aiChatPaper

ChatQA 2 : Combler l'écart avec les LLM propriétaires dans les capacités de contexte long et de RAG

ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

July 19, 2024
Auteurs: Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

Résumé

Dans ce travail, nous présentons ChatQA 2, un modèle basé sur Llama3 conçu pour combler l'écart entre les modèles de langage à accès ouvert (LLMs) et les modèles propriétaires leaders (par exemple, GPT-4-Turbo) en matière de compréhension de contexte long et de génération augmentée par récupération (RAG). Ces deux capacités sont essentielles pour que les LLMs puissent traiter de grands volumes d'informations qui ne peuvent pas tenir dans un seul prompt et sont complémentaires l'une de l'autre, selon les tâches en aval et les budgets de calcul. Nous présentons une recette détaillée de formation continue pour étendre la fenêtre de contexte de Llama3-70B-base de 8K à 128K tokens, ainsi qu'un processus de réglage d'instructions en trois étapes pour améliorer les capacités du modèle à suivre les instructions, à performer en RAG et à comprendre les contextes longs. Nos résultats démontrent que le modèle Llama3-ChatQA-2-70B atteint une précision comparable à GPT-4-Turbo-2024-0409 sur de nombreuses tâches de compréhension de contexte long et le dépasse sur le benchmark RAG. Fait intéressant, nous constatons que le récupérateur de contexte long de pointe peut atténuer le problème de fragmentation du contexte top-k dans le RAG, améliorant ainsi les résultats basés sur le RAG pour les tâches de compréhension de contexte long. Nous fournissons également des comparaisons approfondies entre les solutions RAG et les solutions de contexte long utilisant des LLMs de contexte long de pointe.
English
In this work, we introduce ChatQA 2, a Llama3-based model designed to bridge the gap between open-access LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model achieves accuracy comparable to GPT-4-Turbo-2024-0409 on many long-context understanding tasks and surpasses it on the RAG benchmark. Interestingly, we find that the state-of-the-art long-context retriever can alleviate the top-k context fragmentation issue in RAG, further improving RAG-based results for long-context understanding tasks. We also provide extensive comparisons between RAG and long-context solutions using state-of-the-art long-context LLMs.

Summary

AI-Generated Summary

PDF275November 28, 2024