Detección de Alucinaciones Contextualizadas de Grano Fino Utilizando Modelos de Lenguaje de Gran Escala (LLMs)
Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs
September 26, 2025
Autores: Yehonatan Peisakhovsky, Zorik Gekhman, Yosi Mass, Liat Ein-Dor, Roi Reichart
cs.AI
Resumen
Las alucinaciones contextualizadas son casos en los que las salidas del modelo contienen información no verificable con respecto al texto fuente. Estudiamos la aplicabilidad de los LLM para localizar dichas alucinaciones, como una alternativa más práctica a las complejas tuberías de evaluación existentes. En ausencia de puntos de referencia establecidos para la meta-evaluación de la localización de alucinaciones, construimos uno adaptado a los LLM, que implica una anotación humana desafiante de más de 1,000 ejemplos. Complementamos este punto de referencia con un protocolo de evaluación basado en LLM, verificando su calidad en una evaluación humana. Dado que las representaciones existentes de alucinaciones limitan los tipos de errores que pueden expresarse, proponemos una nueva representación basada en descripciones textuales de forma libre, que captura la gama completa de errores posibles. Realizamos un estudio exhaustivo, evaluando cuatro LLM a gran escala, que resalta la dificultad del punto de referencia, ya que el mejor modelo alcanza un puntaje F1 de solo 0.67. A través de un análisis cuidadoso, ofrecemos insights sobre las estrategias óptimas de "prompting" para la tarea e identificamos los principales factores que la hacen desafiante para los LLM: (1) una tendencia a marcar incorrectamente detalles faltantes como inconsistentes, a pesar de estar instruidos para verificar solo hechos en la salida; y (2) dificultad con salidas que contienen información factualmente correcta ausente en la fuente —y, por lo tanto, no verificable— debido a la alineación con el conocimiento paramétrico del modelo.
English
Context-grounded hallucinations are cases where model outputs contain
information not verifiable against the source text. We study the applicability
of LLMs for localizing such hallucinations, as a more practical alternative to
existing complex evaluation pipelines. In the absence of established benchmarks
for meta-evaluation of hallucinations localization, we construct one tailored
to LLMs, involving a challenging human annotation of over 1,000 examples. We
complement the benchmark with an LLM-based evaluation protocol, verifying its
quality in a human evaluation. Since existing representations of hallucinations
limit the types of errors that can be expressed, we propose a new
representation based on free-form textual descriptions, capturing the full
range of possible errors. We conduct a comprehensive study, evaluating four
large-scale LLMs, which highlights the benchmark's difficulty, as the best
model achieves an F1 score of only 0.67. Through careful analysis, we offer
insights into optimal prompting strategies for the task and identify the main
factors that make it challenging for LLMs: (1) a tendency to incorrectly flag
missing details as inconsistent, despite being instructed to check only facts
in the output; and (2) difficulty with outputs containing factually correct
information absent from the source - and thus not verifiable - due to alignment
with the model's parametric knowledge.