ChatQA 2: 장문 컨텍스트와 RAG 능력에서 독점 LLM과의 격차 해소
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
July 19, 2024
저자: Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
초록
본 연구에서는 오픈 액세스 대형 언어 모델(LLM)과 선도적인 사유 모델(예: GPT-4-Turbo) 간의 격차를 해소하기 위해 Llama3 기반의 ChatQA 2 모델을 소개합니다. 이 모델은 장문 맥락 이해와 검색 증강 생성(RAG) 능력에 초점을 맞추고 있습니다. 이 두 가지 능력은 단일 프롬프트에 담을 수 없는 대량의 정보를 처리하는 데 필수적이며, 다운스트림 작업과 컴퓨팅 예산에 따라 상호 보완적으로 작용합니다. 우리는 Llama3-70B-base의 컨텍스트 윈도우를 8K에서 128K 토큰으로 확장하기 위한 상세한 지속 학습 레시피와 모델의 명령 수행, RAG 성능, 장문 맥락 이해 능력을 향상시키기 위한 3단계 명령어 튜닝 프로세스를 제시합니다. 실험 결과, Llama3-ChatQA-2-70B 모델은 많은 장문 맥락 이해 작업에서 GPT-4-Turbo-2024-0409와 비슷한 정확도를 달성했으며, RAG 벤치마크에서는 이를 능가했습니다. 흥미롭게도, 최신 장문 맥락 검색기가 RAG에서의 상위 k 컨텍스트 분할 문제를 완화하여 장문 맥락 이해 작업에 대한 RAG 기반 결과를 더욱 개선할 수 있음을 발견했습니다. 또한, 최신 장문 맥락 LLM을 사용하여 RAG와 장문 맥락 솔루션 간의 광범위한 비교를 제공합니다.
English
In this work, we introduce ChatQA 2, a Llama3-based model designed to bridge
the gap between open-access LLMs and leading proprietary models (e.g.,
GPT-4-Turbo) in long-context understanding and retrieval-augmented generation
(RAG) capabilities. These two capabilities are essential for LLMs to process
large volumes of information that cannot fit into a single prompt and are
complementary to each other, depending on the downstream tasks and
computational budgets. We present a detailed continued training recipe to
extend the context window of Llama3-70B-base from 8K to 128K tokens, along with
a three-stage instruction tuning process to enhance the model's
instruction-following, RAG performance, and long-context understanding
capabilities. Our results demonstrate that the Llama3-ChatQA-2-70B model
achieves accuracy comparable to GPT-4-Turbo-2024-0409 on many long-context
understanding tasks and surpasses it on the RAG benchmark. Interestingly, we
find that the state-of-the-art long-context retriever can alleviate the top-k
context fragmentation issue in RAG, further improving RAG-based results for
long-context understanding tasks. We also provide extensive comparisons between
RAG and long-context solutions using state-of-the-art long-context LLMs.Summary
AI-Generated Summary