TofuEval: Avaliando Alucinações de LLMs na Sumarização de Diálogos com Foco Temático

Resumo

A sumarização de notícias de documento único tem apresentado progressos significativos em relação à fidelidade nos últimos anos, impulsionada por pesquisas sobre a avaliação da consistência factual, ou alucinações. Questionamos se esses avanços se estendem a outros domínios de sumarização de texto. Propomos um novo benchmark de avaliação para sumarização de diálogos focados em tópicos, gerado por LLMs de diversos tamanhos. Fornecemos anotações humanas binárias em nível de frase sobre a consistência factual dessas sumarizações, juntamente com explicações detalhadas das frases factualmente inconsistentes. Nossa análise mostra que os LLMs existentes geram uma quantidade significativa de erros factuais no domínio de diálogos, independentemente do tamanho do modelo. Por outro lado, quando LLMs, incluindo o GPT-4, atuam como avaliadores binários de factualidade, eles têm um desempenho ruim e podem ser superados por métricas especializadas de avaliação de factualidade, que são as mais avançadas atualmente. Por fim, realizamos uma análise dos tipos de alucinação com uma taxonomia de erros cuidadosamente elaborada. Descobrimos que há diversos erros e distribuições de erros nas sumarizações geradas por modelos, e que métricas não baseadas em LLMs conseguem capturar todos os tipos de erro melhor do que avaliadores baseados em LLMs.

English

Single document news summarization has seen substantial progress on faithfulness in recent years, driven by research on the evaluation of factual consistency, or hallucinations. We ask whether these advances carry over to other text summarization domains. We propose a new evaluation benchmark on topic-focused dialogue summarization, generated by LLMs of varying sizes. We provide binary sentence-level human annotations of the factual consistency of these summaries along with detailed explanations of factually inconsistent sentences. Our analysis shows that existing LLMs hallucinate significant amounts of factual errors in the dialogue domain, regardless of the model's size. On the other hand, when LLMs, including GPT-4, serve as binary factual evaluators, they perform poorly and can be outperformed by prevailing state-of-the-art specialized factuality evaluation metrics. Finally, we conducted an analysis of hallucination types with a curated error taxonomy. We find that there are diverse errors and error distributions in model-generated summaries and that non-LLM based metrics can capture all error types better than LLM-based evaluators.

TofuEval: Avaliando Alucinações de LLMs na Sumarização de Diálogos com Foco Temático

TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

Resumo

Support