Feinkörnige Erkennung von kontextbezogenen Halluzinationen mithilfe von LLMs

papers.abstract

Kontextbezogene Halluzinationen sind Fälle, in denen Modellausgaben Informationen enthalten, die nicht anhand des Quelltextes überprüfbar sind. Wir untersuchen die Anwendbarkeit von LLMs (Large Language Models) zur Lokalisierung solcher Halluzinationen als praktischere Alternative zu bestehenden komplexen Evaluierungspipelines. Da es keine etablierten Benchmarks für die Meta-Evaluierung der Lokalisierung von Halluzinationen gibt, erstellen wir einen speziell auf LLMs zugeschnittenen Benchmark, der eine anspruchsvolle menschliche Annotation von über 1.000 Beispielen umfasst. Wir ergänzen den Benchmark mit einem LLM-basierten Evaluierungsprotokoll und überprüfen dessen Qualität in einer menschlichen Evaluation. Da bestehende Darstellungen von Halluzinationen die Arten von Fehlern, die ausgedrückt werden können, einschränken, schlagen wir eine neue Darstellung basierend auf freien textuellen Beschreibungen vor, die die gesamte Bandbreite möglicher Fehler erfasst. Wir führen eine umfassende Studie durch, in der wir vier großskalige LLMs evaluieren, die die Schwierigkeit des Benchmarks verdeutlicht, da das beste Modell nur einen F1-Score von 0,67 erreicht. Durch sorgfältige Analysen bieten wir Einblicke in optimale Prompting-Strategien für die Aufgabe und identifizieren die Hauptfaktoren, die sie für LLMs herausfordernd machen: (1) eine Tendenz, fehlende Details fälschlicherweise als inkonsistent zu kennzeichnen, obwohl angewiesen wurde, nur Fakten in der Ausgabe zu überprüfen; und (2) Schwierigkeiten mit Ausgaben, die faktisch korrekte Informationen enthalten, die im Quelltext nicht vorhanden – und somit nicht überprüfbar – sind, da sie mit dem parametrischen Wissen des Modells übereinstimmen.

English

Context-grounded hallucinations are cases where model outputs contain information not verifiable against the source text. We study the applicability of LLMs for localizing such hallucinations, as a more practical alternative to existing complex evaluation pipelines. In the absence of established benchmarks for meta-evaluation of hallucinations localization, we construct one tailored to LLMs, involving a challenging human annotation of over 1,000 examples. We complement the benchmark with an LLM-based evaluation protocol, verifying its quality in a human evaluation. Since existing representations of hallucinations limit the types of errors that can be expressed, we propose a new representation based on free-form textual descriptions, capturing the full range of possible errors. We conduct a comprehensive study, evaluating four large-scale LLMs, which highlights the benchmark's difficulty, as the best model achieves an F1 score of only 0.67. Through careful analysis, we offer insights into optimal prompting strategies for the task and identify the main factors that make it challenging for LLMs: (1) a tendency to incorrectly flag missing details as inconsistent, despite being instructed to check only facts in the output; and (2) difficulty with outputs containing factually correct information absent from the source - and thus not verifiable - due to alignment with the model's parametric knowledge.

Feinkörnige Erkennung von kontextbezogenen Halluzinationen mithilfe von LLMs

Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs

papers.abstract

Support