TofuEval: Valutazione delle Allucinazioni dei Modelli Linguistici di Grande Dimensione nella Sintesi di Dialoghi a Tema Specifico
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
February 20, 2024
Autori: Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown
cs.AI
Abstract
La sintesi di notizie da singoli documenti ha registrato progressi significativi in termini di fedeltà negli ultimi anni, grazie alla ricerca sulla valutazione della coerenza fattuale, o delle allucinazioni. Ci chiediamo se questi progressi si estendano ad altri domini di sintesi testuale. Proponiamo un nuovo benchmark di valutazione sulla sintesi di dialoghi focalizzati su argomenti specifici, generata da LLM di dimensioni variabili. Forniamo annotazioni umane binarie a livello di frase sulla coerenza fattuale di questi riassunti, insieme a spiegazioni dettagliate delle frasi fattualmente incoerenti. La nostra analisi mostra che gli LLM esistenti producono una quantità significativa di errori fattuali nel dominio dei dialoghi, indipendentemente dalle dimensioni del modello. D'altra parte, quando gli LLM, incluso GPT-4, fungono da valutatori binari della fattualità, si comportano in modo insoddisfacente e possono essere superati dalle metriche specializzate di valutazione della fattualità più avanzate. Infine, abbiamo condotto un'analisi dei tipi di allucinazioni con una tassonomia degli errori curata. Scopriamo che ci sono errori e distribuzioni di errori diversificati nei riassunti generati dai modelli e che le metriche non basate su LLM possono catturare tutti i tipi di errore meglio dei valutatori basati su LLM.
English
Single document news summarization has seen substantial progress on
faithfulness in recent years, driven by research on the evaluation of factual
consistency, or hallucinations. We ask whether these advances carry over to
other text summarization domains. We propose a new evaluation benchmark on
topic-focused dialogue summarization, generated by LLMs of varying sizes. We
provide binary sentence-level human annotations of the factual consistency of
these summaries along with detailed explanations of factually inconsistent
sentences. Our analysis shows that existing LLMs hallucinate significant
amounts of factual errors in the dialogue domain, regardless of the model's
size. On the other hand, when LLMs, including GPT-4, serve as binary factual
evaluators, they perform poorly and can be outperformed by prevailing
state-of-the-art specialized factuality evaluation metrics. Finally, we
conducted an analysis of hallucination types with a curated error taxonomy. We
find that there are diverse errors and error distributions in model-generated
summaries and that non-LLM based metrics can capture all error types better
than LLM-based evaluators.