TofuEval: Het evalueren van hallucinaties van LLM's in topicgerichte dialoogsamenvatting
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
February 20, 2024
Auteurs: Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown
cs.AI
Samenvatting
Samenvatting van nieuws uit één document heeft de afgelopen jaren aanzienlijke vooruitgang geboekt op het gebied van betrouwbaarheid, gedreven door onderzoek naar de evaluatie van feitelijke consistentie, of hallucinaties. We vragen ons af of deze vooruitgang ook van toepassing is op andere domeinen van tekstsamenvatting. We stellen een nieuwe evaluatiebenchmark voor op het gebied van topicgerichte dialoogsamenvatting, gegenereerd door LLM's van verschillende groottes. We bieden binaire, op zinsniveau geannoteerde menselijke beoordelingen van de feitelijke consistentie van deze samenvattingen, samen met gedetailleerde uitleg van feitelijk inconsistente zinnen. Onze analyse toont aan dat bestaande LLM's aanzienlijke hoeveelheden feitelijke fouten hallucineren in het dialoogdomein, ongeacht de grootte van het model. Aan de andere kant presteren LLM's, inclusief GPT-4, slecht wanneer ze dienen als binaire feitelijke evaluatoren, en kunnen ze worden overtroffen door heersende state-of-the-art gespecialiseerde metrieken voor feitelijkheidsevaluatie. Ten slotte hebben we een analyse uitgevoerd van hallucinatietypes met een uitgewerkte foutentaxonomie. We constateren dat er diverse fouten en foutverdelingen zijn in modelgegenereerde samenvattingen en dat niet-LLM-gebaseerde metrieken alle fouttypen beter kunnen vastleggen dan LLM-gebaseerde evaluatoren.
English
Single document news summarization has seen substantial progress on
faithfulness in recent years, driven by research on the evaluation of factual
consistency, or hallucinations. We ask whether these advances carry over to
other text summarization domains. We propose a new evaluation benchmark on
topic-focused dialogue summarization, generated by LLMs of varying sizes. We
provide binary sentence-level human annotations of the factual consistency of
these summaries along with detailed explanations of factually inconsistent
sentences. Our analysis shows that existing LLMs hallucinate significant
amounts of factual errors in the dialogue domain, regardless of the model's
size. On the other hand, when LLMs, including GPT-4, serve as binary factual
evaluators, they perform poorly and can be outperformed by prevailing
state-of-the-art specialized factuality evaluation metrics. Finally, we
conducted an analysis of hallucination types with a curated error taxonomy. We
find that there are diverse errors and error distributions in model-generated
summaries and that non-LLM based metrics can capture all error types better
than LLM-based evaluators.