ChatPaper.aiChatPaper

Точное обнаружение контекстуально обусловленных галлюцинаций с использованием языковых моделей (LLM)

Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs

September 26, 2025
Авторы: Yehonatan Peisakhovsky, Zorik Gekhman, Yosi Mass, Liat Ein-Dor, Roi Reichart
cs.AI

Аннотация

Контекстуально обусловленные галлюцинации — это случаи, когда выводы модели содержат информацию, которую невозможно проверить по исходному тексту. Мы исследуем применимость крупных языковых моделей (LLM) для локализации таких галлюцинаций как более практичную альтернативу существующим сложным конвейерам оценки. В отсутствие устоявшихся бенчмарков для мета-оценки локализации галлюцинаций мы создаем специализированный бенчмарк, адаптированный для LLM, включающий сложную ручную аннотацию более 1000 примеров. Мы дополняем бенчмарк протоколом оценки на основе LLM, проверяя его качество в ходе человеческой оценки. Поскольку существующие представления галлюцинаций ограничивают типы ошибок, которые можно выразить, мы предлагаем новое представление, основанное на свободных текстовых описаниях, охватывающее весь спектр возможных ошибок. Мы проводим всестороннее исследование, оценивая четыре крупномасштабные LLM, которое подчеркивает сложность бенчмарка: лучшая модель достигает F1-меры всего 0,67. Благодаря тщательному анализу мы предлагаем рекомендации по оптимальным стратегиям промптинга для этой задачи и выявляем основные факторы, которые делают её сложной для LLM: (1) склонность неправильно отмечать отсутствующие детали как противоречивые, несмотря на инструкцию проверять только факты в выводе; и (2) трудности с выводами, содержащими фактологически верную информацию, отсутствующую в источнике — и, следовательно, непроверяемую — из-за её соответствия параметрическим знаниям модели.
English
Context-grounded hallucinations are cases where model outputs contain information not verifiable against the source text. We study the applicability of LLMs for localizing such hallucinations, as a more practical alternative to existing complex evaluation pipelines. In the absence of established benchmarks for meta-evaluation of hallucinations localization, we construct one tailored to LLMs, involving a challenging human annotation of over 1,000 examples. We complement the benchmark with an LLM-based evaluation protocol, verifying its quality in a human evaluation. Since existing representations of hallucinations limit the types of errors that can be expressed, we propose a new representation based on free-form textual descriptions, capturing the full range of possible errors. We conduct a comprehensive study, evaluating four large-scale LLMs, which highlights the benchmark's difficulty, as the best model achieves an F1 score of only 0.67. Through careful analysis, we offer insights into optimal prompting strategies for the task and identify the main factors that make it challenging for LLMs: (1) a tendency to incorrectly flag missing details as inconsistent, despite being instructed to check only facts in the output; and (2) difficulty with outputs containing factually correct information absent from the source - and thus not verifiable - due to alignment with the model's parametric knowledge.
PDF102October 3, 2025