Feinkörnige Erkennung von kontextbezogenen Halluzinationen mithilfe von LLMs
Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs
September 26, 2025
papers.authors: Yehonatan Peisakhovsky, Zorik Gekhman, Yosi Mass, Liat Ein-Dor, Roi Reichart
cs.AI
papers.abstract
Kontextbezogene Halluzinationen sind Fälle, in denen Modellausgaben Informationen enthalten, die nicht anhand des Quelltextes überprüfbar sind. Wir untersuchen die Anwendbarkeit von LLMs (Large Language Models) zur Lokalisierung solcher Halluzinationen als praktischere Alternative zu bestehenden komplexen Evaluierungspipelines. Da es keine etablierten Benchmarks für die Meta-Evaluierung der Lokalisierung von Halluzinationen gibt, erstellen wir einen speziell auf LLMs zugeschnittenen Benchmark, der eine anspruchsvolle menschliche Annotation von über 1.000 Beispielen umfasst. Wir ergänzen den Benchmark mit einem LLM-basierten Evaluierungsprotokoll und überprüfen dessen Qualität in einer menschlichen Evaluation. Da bestehende Darstellungen von Halluzinationen die Arten von Fehlern, die ausgedrückt werden können, einschränken, schlagen wir eine neue Darstellung basierend auf freien textuellen Beschreibungen vor, die die gesamte Bandbreite möglicher Fehler erfasst. Wir führen eine umfassende Studie durch, in der wir vier großskalige LLMs evaluieren, die die Schwierigkeit des Benchmarks verdeutlicht, da das beste Modell nur einen F1-Score von 0,67 erreicht. Durch sorgfältige Analysen bieten wir Einblicke in optimale Prompting-Strategien für die Aufgabe und identifizieren die Hauptfaktoren, die sie für LLMs herausfordernd machen: (1) eine Tendenz, fehlende Details fälschlicherweise als inkonsistent zu kennzeichnen, obwohl angewiesen wurde, nur Fakten in der Ausgabe zu überprüfen; und (2) Schwierigkeiten mit Ausgaben, die faktisch korrekte Informationen enthalten, die im Quelltext nicht vorhanden – und somit nicht überprüfbar – sind, da sie mit dem parametrischen Wissen des Modells übereinstimmen.
English
Context-grounded hallucinations are cases where model outputs contain
information not verifiable against the source text. We study the applicability
of LLMs for localizing such hallucinations, as a more practical alternative to
existing complex evaluation pipelines. In the absence of established benchmarks
for meta-evaluation of hallucinations localization, we construct one tailored
to LLMs, involving a challenging human annotation of over 1,000 examples. We
complement the benchmark with an LLM-based evaluation protocol, verifying its
quality in a human evaluation. Since existing representations of hallucinations
limit the types of errors that can be expressed, we propose a new
representation based on free-form textual descriptions, capturing the full
range of possible errors. We conduct a comprehensive study, evaluating four
large-scale LLMs, which highlights the benchmark's difficulty, as the best
model achieves an F1 score of only 0.67. Through careful analysis, we offer
insights into optimal prompting strategies for the task and identify the main
factors that make it challenging for LLMs: (1) a tendency to incorrectly flag
missing details as inconsistent, despite being instructed to check only facts
in the output; and (2) difficulty with outputs containing factually correct
information absent from the source - and thus not verifiable - due to alignment
with the model's parametric knowledge.