ChatPaper.aiChatPaper

ChatQA 2: Überbrückung der Kluft zu proprietären LLMs in langem Kontext und RAG-Fähigkeiten

ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

July 19, 2024
Autoren: Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

Zusammenfassung

In dieser Arbeit stellen wir ChatQA 2 vor, ein auf Llama3 basierendes Modell, das entwickelt wurde, um die Kluft zwischen Open-Access LLMs und führenden proprietären Modellen (z.B. GPT-4-Turbo) in den Fähigkeiten des Verstehens von langem Kontext und der Generierung mit abrufverstärkter Suche (RAG) zu überbrücken. Diese beiden Fähigkeiten sind für LLMs entscheidend, um große Informationsmengen zu verarbeiten, die nicht in eine einzelne Eingabe passen, und ergänzen sich je nach den nachgelagerten Aufgaben und den Rechenbudgets. Wir präsentieren ein detailliertes Rezept für das fortgesetzte Training, um das Kontextfenster des Llama3-70B-Base-Modells von 8K auf 128K Tokens zu erweitern, zusammen mit einem dreistufigen Anpassungsprozess, um die Anweisungsbeachtung des Modells, die RAG-Leistung und die Fähigkeiten des Verstehens von langem Kontext zu verbessern. Unsere Ergebnisse zeigen, dass das Llama3-ChatQA-2-70B-Modell eine Genauigkeit erreicht, die mit der von GPT-4-Turbo-2024-0409 bei vielen Aufgaben des Verstehens von langem Kontext vergleichbar ist und es bei der RAG-Benchmark übertrifft. Interessanterweise stellen wir fest, dass der modernste Retriever für langen Kontext das Fragmentierungsproblem des Top-k-Kontexts bei RAG lindern kann und somit die RAG-basierten Ergebnisse für Aufgaben des Verstehens von langem Kontext weiter verbessert. Wir bieten auch umfangreiche Vergleiche zwischen RAG und Lösungen für langen Kontext unter Verwendung modernster LLMs für langen Kontext.
English
In this work, we introduce ChatQA 2, a Llama3-based model designed to bridge the gap between open-access LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model achieves accuracy comparable to GPT-4-Turbo-2024-0409 on many long-context understanding tasks and surpasses it on the RAG benchmark. Interestingly, we find that the state-of-the-art long-context retriever can alleviate the top-k context fragmentation issue in RAG, further improving RAG-based results for long-context understanding tasks. We also provide extensive comparisons between RAG and long-context solutions using state-of-the-art long-context LLMs.

Summary

AI-Generated Summary

PDF275November 28, 2024