ChatQA: Entwicklung von GPT-4-Level Konversations-QA-Modellen
ChatQA: Building GPT-4 Level Conversational QA Models
January 18, 2024
Autoren: Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro
cs.AI
Zusammenfassung
In dieser Arbeit stellen wir ChatQA vor, eine Familie von Modellen für konversationelle Frage-Antwort-Systeme (QA), die Genauigkeiten auf GPT-4-Niveau erreichen. Insbesondere schlagen wir eine zweistufige Instruktionsfeinabstimmungsmethode vor, die die Zero-Shot-Ergebnisse von großen Sprachmodellen (LLMs) für konversationelle QA erheblich verbessern kann. Um die Retrieval-Komponente in konversationellen QA-Systemen zu handhaben, feinabstimmen wir einen dichten Retriever auf einem Multi-Turn-QA-Datensatz, was vergleichbare Ergebnisse liefert wie die Verwendung des aktuellsten Query-Rewriting-Modells, dabei jedoch die Bereitstellungskosten erheblich reduziert. Bemerkenswerterweise kann unser ChatQA-70B GPT-4 in Bezug auf den Durchschnittswert auf 10 konversationellen QA-Datensätzen übertreffen (54,14 vs. 53,90), ohne dabei auf synthetische Daten von OpenAI-GPT-Modellen angewiesen zu sein.
English
In this work, we introduce ChatQA, a family of conversational question
answering (QA) models, that obtain GPT-4 level accuracies. Specifically, we
propose a two-stage instruction tuning method that can significantly improve
the zero-shot conversational QA results from large language models (LLMs). To
handle retrieval in conversational QA, we fine-tune a dense retriever on a
multi-turn QA dataset, which provides comparable results to using the
state-of-the-art query rewriting model while largely reducing deployment cost.
Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10
conversational QA datasets (54.14 vs. 53.90), without relying on any synthetic
data from OpenAI GPT models.