TofuEval : Évaluation des hallucinations des LLM dans la synthèse de dialogues thématiques
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
February 20, 2024
Auteurs: Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown
cs.AI
Résumé
La synthèse de documents uniques dans le domaine de l'actualité a connu des progrès significatifs en matière de fidélité ces dernières années, grâce aux recherches sur l'évaluation de la cohérence factuelle, ou des hallucinations. Nous nous demandons si ces avancées se transposent à d'autres domaines de la synthèse de texte. Nous proposons un nouveau benchmark d'évaluation pour la synthèse de dialogues centrés sur un sujet, générés par des modèles de langage de différentes tailles. Nous fournissons des annotations humaines binaires au niveau des phrases sur la cohérence factuelle de ces résumés, ainsi que des explications détaillées des phrases incohérentes sur le plan factuel. Notre analyse montre que les modèles de langage existants produisent un nombre significatif d'erreurs factuelles dans le domaine des dialogues, quelle que soit la taille du modèle. D'autre part, lorsque les modèles de langage, y compris GPT-4, sont utilisés comme évaluateurs binaires de la factualité, leurs performances sont médiocres et peuvent être surpassées par les métriques spécialisées d'évaluation de la factualité les plus récentes. Enfin, nous avons mené une analyse des types d'hallucinations à l'aide d'une taxonomie d'erreurs soigneusement élaborée. Nous constatons qu'il existe une diversité d'erreurs et de distributions d'erreurs dans les résumés générés par les modèles, et que les métriques non basées sur les modèles de langage peuvent capturer tous les types d'erreurs mieux que les évaluateurs basés sur ces modèles.
English
Single document news summarization has seen substantial progress on
faithfulness in recent years, driven by research on the evaluation of factual
consistency, or hallucinations. We ask whether these advances carry over to
other text summarization domains. We propose a new evaluation benchmark on
topic-focused dialogue summarization, generated by LLMs of varying sizes. We
provide binary sentence-level human annotations of the factual consistency of
these summaries along with detailed explanations of factually inconsistent
sentences. Our analysis shows that existing LLMs hallucinate significant
amounts of factual errors in the dialogue domain, regardless of the model's
size. On the other hand, when LLMs, including GPT-4, serve as binary factual
evaluators, they perform poorly and can be outperformed by prevailing
state-of-the-art specialized factuality evaluation metrics. Finally, we
conducted an analysis of hallucination types with a curated error taxonomy. We
find that there are diverse errors and error distributions in model-generated
summaries and that non-LLM based metrics can capture all error types better
than LLM-based evaluators.Summary
AI-Generated Summary