ChatPaper.aiChatPaper

HalluHard: Een Uitdagende Multi-Turn Hallucinatie Benchmark

HalluHard: A Hard Multi-Turn Hallucination Benchmark

February 1, 2026
Auteurs: Dongyang Fan, Sebastien Delsad, Nicolas Flammarion, Maksym Andriushchenko
cs.AI

Samenvatting

Grote taalmodellen (LLM's) produceren nog steeds plausibel klinkende maar ongefundeerde feitelijke beweringen, een probleem dat verergert in meerdaagse dialoog naarmate de context groeit en vroege fouten zich opstapelen. Wij introduceren HalluHard, een uitdagende meerdaagse hallucinatiebenchmark met 950 startvragen verdeeld over vier hoog-risicodomeinen: juridische zaken, onderzoeksvragen, medische richtlijnen en programmeren. Wij operationaliseren gefundeerdheid door het vereisen van inline citaten voor feitelijke beweringen. Om betrouwbare evaluatie in open-ended settings te ondersteunen, stellen wij een beoordelingspijplijn voor die iteratief bewijs ophaalt via webzoekopdrachten. Deze kan volledige tekstbronnen (inclusief PDF's) ophalen, filteren en parseren om te beoordelen of het geciteerde materiaal daadwerkelijk de gegenereerde inhoud ondersteunt. Over een diverse set van vooraanstaande propriëtaire en open-weight modellen heen, blijven hallucinaties aanzienlijk, zelfs met webzoekopdrachten (ongeveer 30% voor de sterkste configuratie, Opus-4.5 met webzoeken), waarbij fouten in de koppeling tussen inhoud en bronnen in hoge mate aanhouden. Ten slotte tonen wij aan dat hallucinatiegedrag wordt gevormd door modelcapaciteit, positie in de dialoog, effectief redeneren en het type vereiste kennis.
English
Large language models (LLMs) still produce plausible-sounding but ungrounded factual claims, a problem that worsens in multi-turn dialogue as context grows and early errors cascade. We introduce HalluHard, a challenging multi-turn hallucination benchmark with 950 seed questions spanning four high-stakes domains: legal cases, research questions, medical guidelines, and coding. We operationalize groundedness by requiring inline citations for factual assertions. To support reliable evaluation in open-ended settings, we propose a judging pipeline that iteratively retrieves evidence via web search. It can fetch, filter, and parse full-text sources (including PDFs) to assess whether cited material actually supports the generated content. Across a diverse set of frontier proprietary and open-weight models, hallucinations remain substantial even with web search (approx 30% for the strongest configuration, Opus-4.5 with web search), with content-grounding errors persisting at high rates. Finally, we show that hallucination behavior is shaped by model capacity, turn position, effective reasoning, and the type of knowledge required.
PDF13February 9, 2026