TofuEval: Evaluación de Alucinaciones en Modelos de Lenguaje de Gran Escala en la Resumen de Diálogos Enfocados en Temas Específicos
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
February 20, 2024
Autores: Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown
cs.AI
Resumen
La resumenización de noticias de un solo documento ha experimentado avances significativos en cuanto a fidelidad en los últimos años, impulsados por investigaciones sobre la evaluación de la consistencia factual o las alucinaciones. Nos preguntamos si estos avances se trasladan a otros dominios de resumenización de texto. Proponemos un nuevo punto de referencia de evaluación en la resumenización de diálogos centrados en temas, generados por modelos de lenguaje de gran tamaño (LLMs) de diversos tamaños. Proporcionamos anotaciones humanas binarias a nivel de oración sobre la consistencia factual de estos resúmenes, junto con explicaciones detalladas de las oraciones que son factualmente inconsistentes. Nuestro análisis muestra que los LLMs existentes generan una cantidad significativa de errores factuales en el dominio de los diálogos, independientemente del tamaño del modelo. Por otro lado, cuando los LLMs, incluido GPT-4, actúan como evaluadores binarios de factualidad, su desempeño es deficiente y pueden ser superados por métricas especializadas de evaluación de factualidad, que representan el estado del arte. Finalmente, realizamos un análisis de los tipos de alucinaciones con una taxonomía de errores cuidadosamente seleccionada. Encontramos que hay diversos errores y distribuciones de errores en los resúmenes generados por los modelos, y que las métricas no basadas en LLMs pueden capturar todos los tipos de errores mejor que los evaluadores basados en LLMs.
English
Single document news summarization has seen substantial progress on
faithfulness in recent years, driven by research on the evaluation of factual
consistency, or hallucinations. We ask whether these advances carry over to
other text summarization domains. We propose a new evaluation benchmark on
topic-focused dialogue summarization, generated by LLMs of varying sizes. We
provide binary sentence-level human annotations of the factual consistency of
these summaries along with detailed explanations of factually inconsistent
sentences. Our analysis shows that existing LLMs hallucinate significant
amounts of factual errors in the dialogue domain, regardless of the model's
size. On the other hand, when LLMs, including GPT-4, serve as binary factual
evaluators, they perform poorly and can be outperformed by prevailing
state-of-the-art specialized factuality evaluation metrics. Finally, we
conducted an analysis of hallucination types with a curated error taxonomy. We
find that there are diverse errors and error distributions in model-generated
summaries and that non-LLM based metrics can capture all error types better
than LLM-based evaluators.