Точное обнаружение контекстуально обусловленных галлюцинаций с использованием языковых моделей (LLM)
Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs
September 26, 2025
Авторы: Yehonatan Peisakhovsky, Zorik Gekhman, Yosi Mass, Liat Ein-Dor, Roi Reichart
cs.AI
Аннотация
Контекстуально обусловленные галлюцинации — это случаи, когда выводы модели содержат информацию, которую невозможно проверить по исходному тексту. Мы исследуем применимость крупных языковых моделей (LLM) для локализации таких галлюцинаций как более практичную альтернативу существующим сложным конвейерам оценки. В отсутствие устоявшихся бенчмарков для мета-оценки локализации галлюцинаций мы создаем специализированный бенчмарк, адаптированный для LLM, включающий сложную ручную аннотацию более 1000 примеров. Мы дополняем бенчмарк протоколом оценки на основе LLM, проверяя его качество в ходе человеческой оценки. Поскольку существующие представления галлюцинаций ограничивают типы ошибок, которые можно выразить, мы предлагаем новое представление, основанное на свободных текстовых описаниях, охватывающее весь спектр возможных ошибок. Мы проводим всестороннее исследование, оценивая четыре крупномасштабные LLM, которое подчеркивает сложность бенчмарка: лучшая модель достигает F1-меры всего 0,67. Благодаря тщательному анализу мы предлагаем рекомендации по оптимальным стратегиям промптинга для этой задачи и выявляем основные факторы, которые делают её сложной для LLM: (1) склонность неправильно отмечать отсутствующие детали как противоречивые, несмотря на инструкцию проверять только факты в выводе; и (2) трудности с выводами, содержащими фактологически верную информацию, отсутствующую в источнике — и, следовательно, непроверяемую — из-за её соответствия параметрическим знаниям модели.
English
Context-grounded hallucinations are cases where model outputs contain
information not verifiable against the source text. We study the applicability
of LLMs for localizing such hallucinations, as a more practical alternative to
existing complex evaluation pipelines. In the absence of established benchmarks
for meta-evaluation of hallucinations localization, we construct one tailored
to LLMs, involving a challenging human annotation of over 1,000 examples. We
complement the benchmark with an LLM-based evaluation protocol, verifying its
quality in a human evaluation. Since existing representations of hallucinations
limit the types of errors that can be expressed, we propose a new
representation based on free-form textual descriptions, capturing the full
range of possible errors. We conduct a comprehensive study, evaluating four
large-scale LLMs, which highlights the benchmark's difficulty, as the best
model achieves an F1 score of only 0.67. Through careful analysis, we offer
insights into optimal prompting strategies for the task and identify the main
factors that make it challenging for LLMs: (1) a tendency to incorrectly flag
missing details as inconsistent, despite being instructed to check only facts
in the output; and (2) difficulty with outputs containing factually correct
information absent from the source - and thus not verifiable - due to alignment
with the model's parametric knowledge.