HalluHard: Строгий многопроходный бенчмарк для оценки галлюцинаций
HalluHard: A Hard Multi-Turn Hallucination Benchmark
February 1, 2026
Авторы: Dongyang Fan, Sebastien Delsad, Nicolas Flammarion, Maksym Andriushchenko
cs.AI
Аннотация
Крупные языковые модели (LLМ) по-прежнему генерируют правдоподобные, но необоснованные фактические утверждения. Эта проблема усугубляется в многотурных диалогах по мере роста контекста и накопления ошибок на ранних этапах. Мы представляем HalluHard — сложный бенчмарк для оценки многотурных галлюцинаций, содержащий 950 исходных вопросов из четырёх критически важных областей: судебные дела, исследовательские вопросы, медицинские рекомендации и программирование. Мы операционализируем обоснованность, требуя прямых цитат для фактологических утверждений. Для обеспечения надёжной оценки в условиях открытых сценариев предлагается конвейер проверки, который итеративно извлекает доказательства через веб-поиск. Система способна находить, фильтровать и анализировать полные тексты источников (включая PDF), чтобы оценить, действительно ли цитируемый материал подтверждает сгенерированное содержание. Среди разнообразного набора передовых проприетарных и открытых моделей уровень галлюцинаций остаётся значительным даже с использованием веб-поиска (примерно 30% для сильнейшей конфигурации — Opus-4.5 с веб-поиском), причём ошибки обоснования содержания сохраняются на высоком уровне. Наконец, мы демонстрируем, что характер галлюцинаций определяется ёмкостью модели, позицией в диалоге, эффективностью рассуждений и типом требуемых знаний.
English
Large language models (LLMs) still produce plausible-sounding but ungrounded factual claims, a problem that worsens in multi-turn dialogue as context grows and early errors cascade. We introduce HalluHard, a challenging multi-turn hallucination benchmark with 950 seed questions spanning four high-stakes domains: legal cases, research questions, medical guidelines, and coding. We operationalize groundedness by requiring inline citations for factual assertions. To support reliable evaluation in open-ended settings, we propose a judging pipeline that iteratively retrieves evidence via web search. It can fetch, filter, and parse full-text sources (including PDFs) to assess whether cited material actually supports the generated content. Across a diverse set of frontier proprietary and open-weight models, hallucinations remain substantial even with web search (approx 30% for the strongest configuration, Opus-4.5 with web search), with content-grounding errors persisting at high rates. Finally, we show that hallucination behavior is shaped by model capacity, turn position, effective reasoning, and the type of knowledge required.