HalluHard: 困難なマルチターンハルシネーション評価ベンチマーク
HalluHard: A Hard Multi-Turn Hallucination Benchmark
February 1, 2026
著者: Dongyang Fan, Sebastien Delsad, Nicolas Flammarion, Maksym Andriushchenko
cs.AI
要旨
大規模言語モデル(LLM)は、依然としてもっともらしいが根拠のない事実主張を生成する問題があり、これは対話のターン数が増えて文脈が拡大し、初期の誤りが連鎖する多ターン対話において悪化する。本研究では、法的事例、研究課題、医療ガイドライン、コーディングという4つの重要領域にまたがる950のシード質問からなる、挑戦的な多ターン幻覚ベンチマーク「HalluHard」を提案する。我々は、事実主張に対するインライン引用を要求することで、接地性を操作的に定義する。オープンエンド設定での信頼性の高い評価を支援するため、ウェブ検索による証拠の反復的取得を行う判定パイプラインを提案する。このパイプラインは全文ソース(PDFを含む)を取得、フィルタリング、解析し、引用された資料が生成された内容を実際に支持するかどうかを評価できる。多様な最先端のプロプライエタリモデルおよびオープンウェイトモデルにわたる評価では、ウェブ検索を利用した場合でも幻覚は相当数残存し(最強構成のOpus-4.5 with web searchで約30%)、内容の接地誤りが高い割合で持続することがわかった。最後に、幻覚の生起パターンが、モデル能力、ターン位置、効果的推論、および要求される知識の種類によって形成されることを示す。
English
Large language models (LLMs) still produce plausible-sounding but ungrounded factual claims, a problem that worsens in multi-turn dialogue as context grows and early errors cascade. We introduce HalluHard, a challenging multi-turn hallucination benchmark with 950 seed questions spanning four high-stakes domains: legal cases, research questions, medical guidelines, and coding. We operationalize groundedness by requiring inline citations for factual assertions. To support reliable evaluation in open-ended settings, we propose a judging pipeline that iteratively retrieves evidence via web search. It can fetch, filter, and parse full-text sources (including PDFs) to assess whether cited material actually supports the generated content. Across a diverse set of frontier proprietary and open-weight models, hallucinations remain substantial even with web search (approx 30% for the strongest configuration, Opus-4.5 with web search), with content-grounding errors persisting at high rates. Finally, we show that hallucination behavior is shaped by model capacity, turn position, effective reasoning, and the type of knowledge required.