HalluHard: 다중 턴 환각 현상 평가를 위한 엄격한 벤치마크
HalluHard: A Hard Multi-Turn Hallucination Benchmark
February 1, 2026
저자: Dongyang Fan, Sebastien Delsad, Nicolas Flammarion, Maksym Andriushchenko
cs.AI
초록
대규모 언어 모델(LLM)은 여전히 그럴듯하게 들리지만 사실적 근거가 없는 주장을 생성하는 문제가 있으며, 이는 다중 회기 대화에서 맥락이 확장되고 초기 오류가 누적됨에 따라 악화됩니다. 본 연구에서는 950개의 시드 질문으로 구성된 4개의 고위험 분야(법률 사례, 연구 질문, 의료 지침, 코딩)를 아우르는 도전적인 다중 회기 환각 벤치마크인 HalluHard를 소개합니다. 우리는 사실적 주장에 대한 인라인 인용을 요구함으로써 근거성(groundedness)을 운영화합니다. 개방형 설정에서 신뢰할 수 있는 평가를 지원하기 위해, 웹 검색을 통한 증거 반복 검색이 가능한 판단 파이프라인을 제안합니다. 이 파이프라인은 전체 텍스트 원본(PDF 포함)을 가져오고, 필터링하며, 구문 분석하여 인용된 자료가 생성된 내용을 실제로 지지하는지 평가할 수 있습니다. 다양한 최첨단 독점 및 오픈-가중치 모델을 대상으로 한 실험에서, 웹 검색을 사용하더라도 환각 현상은 상당히 지속되었으며(가장 강력한 구성인 Opus-4.5 + 웹 검색의 경우 약 30%), 내용-근거 연결 오류는 높은 비율로 관찰되었습니다. 마지막으로, 환각 현상이 모델 성능, 회기 내 위치, 효과적 추론, 요구되는 지식 유형에 따라 영향을 받음을 보여줍니다.
English
Large language models (LLMs) still produce plausible-sounding but ungrounded factual claims, a problem that worsens in multi-turn dialogue as context grows and early errors cascade. We introduce HalluHard, a challenging multi-turn hallucination benchmark with 950 seed questions spanning four high-stakes domains: legal cases, research questions, medical guidelines, and coding. We operationalize groundedness by requiring inline citations for factual assertions. To support reliable evaluation in open-ended settings, we propose a judging pipeline that iteratively retrieves evidence via web search. It can fetch, filter, and parse full-text sources (including PDFs) to assess whether cited material actually supports the generated content. Across a diverse set of frontier proprietary and open-weight models, hallucinations remain substantial even with web search (approx 30% for the strongest configuration, Opus-4.5 with web search), with content-grounding errors persisting at high rates. Finally, we show that hallucination behavior is shaped by model capacity, turn position, effective reasoning, and the type of knowledge required.