ChatQA: GPT-4 Niveau Conversatievraag-Antwoordmodellen Bouwen
ChatQA: Building GPT-4 Level Conversational QA Models
January 18, 2024
Auteurs: Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
Samenvatting
In dit werk introduceren we ChatQA, een familie van conversatievraag-antwoordmodellen (QA) die nauwkeurigheden op GPT-4-niveau behalen. Specifiek stellen we een tweestaps instructieafstemmingsmethode voor die de zero-shot conversatie-QA-resultaten van grote taalmodellen (LLMs) aanzienlijk kan verbeteren. Om retrieval in conversatie-QA te hanteren, fine-tunen we een dense retriever op een multi-turn QA-dataset, wat vergelijkbare resultaten oplevert als het gebruik van het state-of-the-art query rewriting-model, terwijl de implementatiekosten aanzienlijk worden verlaagd. Opmerkelijk is dat onze ChatQA-70B GPT-4 kan overtreffen wat betreft gemiddelde score op 10 conversatie-QA-datasets (54,14 vs. 53,90), zonder gebruik te maken van synthetische data van OpenAI GPT-modellen.
English
In this work, we introduce ChatQA, a family of conversational question
answering (QA) models, that obtain GPT-4 level accuracies. Specifically, we
propose a two-stage instruction tuning method that can significantly improve
the zero-shot conversational QA results from large language models (LLMs). To
handle retrieval in conversational QA, we fine-tune a dense retriever on a
multi-turn QA dataset, which provides comparable results to using the
state-of-the-art query rewriting model while largely reducing deployment cost.
Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10
conversational QA datasets (54.14 vs. 53.90), without relying on any synthetic
data from OpenAI GPT models.