ChatPaper.aiChatPaper

ChatQA 2: Aproximando a Lacuna para LLMs Proprietários em Contextos Longos e RAG Capacidades

ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

July 19, 2024
Autores: Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro
cs.AI

Resumo

Neste trabalho, apresentamos o ChatQA 2, um modelo baseado em Llama3 projetado para preencher a lacuna entre LLMs de acesso aberto e os principais modelos proprietários (por exemplo, GPT-4-Turbo) em capacidades de compreensão de contexto longo e geração aumentada por recuperação (RAG). Essas duas capacidades são essenciais para LLMs processarem grandes volumes de informações que não podem ser inseridas em uma única solicitação e são complementares entre si, dependendo das tarefas subsequentes e dos recursos computacionais. Apresentamos uma receita detalhada de treinamento contínuo para ampliar a janela de contexto do Llama3-70B-base de 8K para 128K tokens, juntamente com um processo de ajuste de instruções em três estágios para aprimorar o seguimento de instruções do modelo, o desempenho RAG e as capacidades de compreensão de contexto longo. Nossos resultados demonstram que o modelo Llama3-ChatQA-2-70B alcança uma precisão comparável ao GPT-4-Turbo-2024-0409 em muitas tarefas de compreensão de contexto longo e o supera no benchmark RAG. Curiosamente, descobrimos que o recuperador de contexto longo de última geração pode aliviar o problema de fragmentação de contexto superior-k em RAG, melhorando ainda mais os resultados baseados em RAG para tarefas de compreensão de contexto longo. Também fornecemos extensas comparações entre soluções RAG e de contexto longo usando LLMs de contexto longo de última geração.
English
In this work, we introduce ChatQA 2, a Llama3-based model designed to bridge the gap between open-access LLMs and leading proprietary models (e.g., GPT-4-Turbo) in long-context understanding and retrieval-augmented generation (RAG) capabilities. These two capabilities are essential for LLMs to process large volumes of information that cannot fit into a single prompt and are complementary to each other, depending on the downstream tasks and computational budgets. We present a detailed continued training recipe to extend the context window of Llama3-70B-base from 8K to 128K tokens, along with a three-stage instruction tuning process to enhance the model's instruction-following, RAG performance, and long-context understanding capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model achieves accuracy comparable to GPT-4-Turbo-2024-0409 on many long-context understanding tasks and surpasses it on the RAG benchmark. Interestingly, we find that the state-of-the-art long-context retriever can alleviate the top-k context fragmentation issue in RAG, further improving RAG-based results for long-context understanding tasks. We also provide extensive comparisons between RAG and long-context solutions using state-of-the-art long-context LLMs.
PDF275November 28, 2024