TofuEval: Оценка галлюцинаций языковых моделей в тематически-ориентированной диалоговой суммаризации
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization
February 20, 2024
Авторы: Liyan Tang, Igor Shalyminov, Amy Wing-mei Wong, Jon Burnsky, Jake W. Vincent, Yu'an Yang, Siffi Singh, Song Feng, Hwanjun Song, Hang Su, Lijia Sun, Yi Zhang, Saab Mansour, Kathleen McKeown
cs.AI
Аннотация
В последние годы в области суммаризации новостей из одного документа достигнут значительный прогресс в плане достоверности, что обусловлено исследованиями в области оценки фактической согласованности или галлюцинаций. Мы задаемся вопросом, распространяются ли эти достижения на другие области суммаризации текста. Мы предлагаем новый эталонный метод оценки для тематической суммаризации диалогов, созданный с использованием языковых моделей (LLM) различного размера. Мы предоставляем бинарные аннотации на уровне предложений, созданные людьми, для оценки фактической согласованности этих суммаризаций, а также подробные объяснения для предложений, содержащих фактические ошибки. Наш анализ показывает, что существующие LLM генерируют значительное количество фактических ошибок в области диалогов, независимо от размера модели. С другой стороны, когда LLM, включая GPT-4, используются в качестве бинарных оценщиков фактической согласованности, их результаты оказываются неудовлетворительными, и они уступают современным специализированным метрикам оценки фактической достоверности. Наконец, мы провели анализ типов галлюцинаций с использованием разработанной таксономии ошибок. Мы обнаружили, что в суммаризациях, созданных моделями, присутствуют разнообразные ошибки и их распределения, и что метрики, не основанные на LLM, лучше справляются с выявлением всех типов ошибок, чем оценщики на основе LLM.
English
Single document news summarization has seen substantial progress on
faithfulness in recent years, driven by research on the evaluation of factual
consistency, or hallucinations. We ask whether these advances carry over to
other text summarization domains. We propose a new evaluation benchmark on
topic-focused dialogue summarization, generated by LLMs of varying sizes. We
provide binary sentence-level human annotations of the factual consistency of
these summaries along with detailed explanations of factually inconsistent
sentences. Our analysis shows that existing LLMs hallucinate significant
amounts of factual errors in the dialogue domain, regardless of the model's
size. On the other hand, when LLMs, including GPT-4, serve as binary factual
evaluators, they perform poorly and can be outperformed by prevailing
state-of-the-art specialized factuality evaluation metrics. Finally, we
conducted an analysis of hallucination types with a curated error taxonomy. We
find that there are diverse errors and error distributions in model-generated
summaries and that non-LLM based metrics can capture all error types better
than LLM-based evaluators.Summary
AI-Generated Summary