TofuEval: Avaliando Alucinações de LLMs na Sumarização de Diálogos com Foco Temático
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
February 20, 2024
Autores: Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown
cs.AI
Resumo
A sumarização de notícias de documento único tem apresentado progressos significativos em relação à fidelidade nos últimos anos, impulsionada por pesquisas sobre a avaliação da consistência factual, ou alucinações. Questionamos se esses avanços se estendem a outros domínios de sumarização de texto. Propomos um novo benchmark de avaliação para sumarização de diálogos focados em tópicos, gerado por LLMs de diversos tamanhos. Fornecemos anotações humanas binárias em nível de frase sobre a consistência factual dessas sumarizações, juntamente com explicações detalhadas das frases factualmente inconsistentes. Nossa análise mostra que os LLMs existentes geram uma quantidade significativa de erros factuais no domínio de diálogos, independentemente do tamanho do modelo. Por outro lado, quando LLMs, incluindo o GPT-4, atuam como avaliadores binários de factualidade, eles têm um desempenho ruim e podem ser superados por métricas especializadas de avaliação de factualidade, que são as mais avançadas atualmente. Por fim, realizamos uma análise dos tipos de alucinação com uma taxonomia de erros cuidadosamente elaborada. Descobrimos que há diversos erros e distribuições de erros nas sumarizações geradas por modelos, e que métricas não baseadas em LLMs conseguem capturar todos os tipos de erro melhor do que avaliadores baseados em LLMs.
English
Single document news summarization has seen substantial progress on
faithfulness in recent years, driven by research on the evaluation of factual
consistency, or hallucinations. We ask whether these advances carry over to
other text summarization domains. We propose a new evaluation benchmark on
topic-focused dialogue summarization, generated by LLMs of varying sizes. We
provide binary sentence-level human annotations of the factual consistency of
these summaries along with detailed explanations of factually inconsistent
sentences. Our analysis shows that existing LLMs hallucinate significant
amounts of factual errors in the dialogue domain, regardless of the model's
size. On the other hand, when LLMs, including GPT-4, serve as binary factual
evaluators, they perform poorly and can be outperformed by prevailing
state-of-the-art specialized factuality evaluation metrics. Finally, we
conducted an analysis of hallucination types with a curated error taxonomy. We
find that there are diverse errors and error distributions in model-generated
summaries and that non-LLM based metrics can capture all error types better
than LLM-based evaluators.