TofuEval: Het evalueren van hallucinaties van LLM's in topicgerichte dialoogsamenvatting

Samenvatting

Samenvatting van nieuws uit één document heeft de afgelopen jaren aanzienlijke vooruitgang geboekt op het gebied van betrouwbaarheid, gedreven door onderzoek naar de evaluatie van feitelijke consistentie, of hallucinaties. We vragen ons af of deze vooruitgang ook van toepassing is op andere domeinen van tekstsamenvatting. We stellen een nieuwe evaluatiebenchmark voor op het gebied van topicgerichte dialoogsamenvatting, gegenereerd door LLM's van verschillende groottes. We bieden binaire, op zinsniveau geannoteerde menselijke beoordelingen van de feitelijke consistentie van deze samenvattingen, samen met gedetailleerde uitleg van feitelijk inconsistente zinnen. Onze analyse toont aan dat bestaande LLM's aanzienlijke hoeveelheden feitelijke fouten hallucineren in het dialoogdomein, ongeacht de grootte van het model. Aan de andere kant presteren LLM's, inclusief GPT-4, slecht wanneer ze dienen als binaire feitelijke evaluatoren, en kunnen ze worden overtroffen door heersende state-of-the-art gespecialiseerde metrieken voor feitelijkheidsevaluatie. Ten slotte hebben we een analyse uitgevoerd van hallucinatietypes met een uitgewerkte foutentaxonomie. We constateren dat er diverse fouten en foutverdelingen zijn in modelgegenereerde samenvattingen en dat niet-LLM-gebaseerde metrieken alle fouttypen beter kunnen vastleggen dan LLM-gebaseerde evaluatoren.

English

Single document news summarization has seen substantial progress on faithfulness in recent years, driven by research on the evaluation of factual consistency, or hallucinations. We ask whether these advances carry over to other text summarization domains. We propose a new evaluation benchmark on topic-focused dialogue summarization, generated by LLMs of varying sizes. We provide binary sentence-level human annotations of the factual consistency of these summaries along with detailed explanations of factually inconsistent sentences. Our analysis shows that existing LLMs hallucinate significant amounts of factual errors in the dialogue domain, regardless of the model's size. On the other hand, when LLMs, including GPT-4, serve as binary factual evaluators, they perform poorly and can be outperformed by prevailing state-of-the-art specialized factuality evaluation metrics. Finally, we conducted an analysis of hallucination types with a curated error taxonomy. We find that there are diverse errors and error distributions in model-generated summaries and that non-LLM based metrics can capture all error types better than LLM-based evaluators.

TofuEval: Het evalueren van hallucinaties van LLM's in topicgerichte dialoogsamenvatting

TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

Samenvatting

Support