ChatPaper.aiChatPaper

TofuEval: Bewertung von Halluzinationen von LLMs bei themenfokussierter Dialogzusammenfassung

TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

February 20, 2024
Autoren: Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown
cs.AI

Zusammenfassung

Die Zusammenfassung von Nachrichten aus einzelnen Dokumenten hat in den letzten Jahren erhebliche Fortschritte in Bezug auf die Treue der Inhalte gemacht, angetrieben durch Forschungen zur Bewertung der faktischen Konsistenz oder von Halluzinationen. Wir fragen, ob diese Fortschritte auch auf andere Bereiche der Textzusammenfassung übertragbar sind. Wir schlagen einen neuen Evaluierungsbenchmark für themenfokussierte Dialogzusammenfassungen vor, die von LLMs unterschiedlicher Größe generiert werden. Wir stellen binäre, satzweise menschliche Annotationen der faktischen Konsistenz dieser Zusammenfassungen bereit, zusammen mit detaillierten Erklärungen zu faktisch inkonsistenten Sätzen. Unsere Analyse zeigt, dass bestehende LLMs im Dialogbereich erhebliche Mengen an faktischen Fehlern halluzinieren, unabhängig von der Größe des Modells. Andererseits schneiden LLMs, einschließlich GPT-4, als binäre Faktizitätsbewerter schlecht ab und können von den derzeitigen, spezialisierten State-of-the-Art-Metriken zur Faktizitätsbewertung übertroffen werden. Schließlich führten wir eine Analyse der Halluzinationstypen mit einer kuratierten Fehlertaxonomie durch. Wir stellen fest, dass es in modellgenerierten Zusammenfassungen diverse Fehler und Fehlerverteilungen gibt und dass nicht-LLM-basierte Metriken alle Fehlertypen besser erfassen können als LLM-basierte Bewerter.
English
Single document news summarization has seen substantial progress on faithfulness in recent years, driven by research on the evaluation of factual consistency, or hallucinations. We ask whether these advances carry over to other text summarization domains. We propose a new evaluation benchmark on topic-focused dialogue summarization, generated by LLMs of varying sizes. We provide binary sentence-level human annotations of the factual consistency of these summaries along with detailed explanations of factually inconsistent sentences. Our analysis shows that existing LLMs hallucinate significant amounts of factual errors in the dialogue domain, regardless of the model's size. On the other hand, when LLMs, including GPT-4, serve as binary factual evaluators, they perform poorly and can be outperformed by prevailing state-of-the-art specialized factuality evaluation metrics. Finally, we conducted an analysis of hallucination types with a curated error taxonomy. We find that there are diverse errors and error distributions in model-generated summaries and that non-LLM based metrics can capture all error types better than LLM-based evaluators.

Summary

AI-Generated Summary

PDF134December 15, 2024