ChatQA: Costruire Modelli di QA Conversazionale al Livello di GPT-4

Abstract

In questo lavoro, introduciamo ChatQA, una famiglia di modelli di risposta a domande conversazionali (QA), che raggiungono livelli di accuratezza paragonabili a GPT-4. Nello specifico, proponiamo un metodo di ottimizzazione a due fasi basato su istruzioni che può migliorare significativamente i risultati di QA conversazionale zero-shot ottenuti da grandi modelli linguistici (LLM). Per gestire il recupero delle informazioni nel QA conversazionale, ottimizziamo un retriever denso su un dataset di QA multi-turn, ottenendo risultati comparabili all'uso del modello di riscrittura delle query più avanzato, riducendo notevolmente i costi di implementazione. In particolare, il nostro ChatQA-70B supera GPT-4 in termini di punteggio medio su 10 dataset di QA conversazionale (54.14 vs. 53.90), senza fare affidamento su dati sintetici provenienti dai modelli GPT di OpenAI.

English

In this work, we introduce ChatQA, a family of conversational question answering (QA) models, that obtain GPT-4 level accuracies. Specifically, we propose a two-stage instruction tuning method that can significantly improve the zero-shot conversational QA results from large language models (LLMs). To handle retrieval in conversational QA, we fine-tune a dense retriever on a multi-turn QA dataset, which provides comparable results to using the state-of-the-art query rewriting model while largely reducing deployment cost. Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10 conversational QA datasets (54.14 vs. 53.90), without relying on any synthetic data from OpenAI GPT models.

ChatQA: Costruire Modelli di QA Conversazionale al Livello di GPT-4

ChatQA: Building GPT-4 Level Conversational QA Models

Abstract

Support