ChatPaper.aiChatPaper

HalluHard: Um Benchmark Rigoroso de Alucinação em Múltiplos Turnos

HalluHard: A Hard Multi-Turn Hallucination Benchmark

February 1, 2026
Autores: Dongyang Fan, Sebastien Delsad, Nicolas Flammarion, Maksym Andriushchenko
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs) ainda produzem afirmações factuais que soam plausíveis, mas sem fundamentação, um problema que se agrava no diálogo multi-turno à medida que o contexto cresce e os erros iniciais se propagam. Apresentamos o HalluHard, um benchmark desafiador de alucinação multi-turno com 950 perguntas iniciais abrangendo quatro domínios de alto risco: casos jurídicos, questões de pesquisa, diretrizes médicas e programação. Operacionalizamos a fundamentação exigindo citações em linha para asserções factuais. Para apoiar uma avaliação confiável em cenários de resposta aberta, propomos um pipeline de julgamento que recupera evidências iterativamente por meio de busca na web. Ele pode buscar, filtrar e analisar fontes de texto integral (incluindo PDFs) para avaliar se o material citado realmente suporta o conteúdo gerado. Em um conjunto diversificado de modelos proprietários de ponta e de pesos abertos, as alucinações permanecem substanciais mesmo com busca na web (aproximadamente 30% para a configuração mais forte, Opus-4.5 com busca na web), com erros de fundamentação do conteúdo persistindo em taxas elevadas. Finalmente, mostramos que o comportamento de alucinação é moldado pela capacidade do modelo, posição no turno, raciocínio efetivo e o tipo de conhecimento exigido.
English
Large language models (LLMs) still produce plausible-sounding but ungrounded factual claims, a problem that worsens in multi-turn dialogue as context grows and early errors cascade. We introduce HalluHard, a challenging multi-turn hallucination benchmark with 950 seed questions spanning four high-stakes domains: legal cases, research questions, medical guidelines, and coding. We operationalize groundedness by requiring inline citations for factual assertions. To support reliable evaluation in open-ended settings, we propose a judging pipeline that iteratively retrieves evidence via web search. It can fetch, filter, and parse full-text sources (including PDFs) to assess whether cited material actually supports the generated content. Across a diverse set of frontier proprietary and open-weight models, hallucinations remain substantial even with web search (approx 30% for the strongest configuration, Opus-4.5 with web search), with content-grounding errors persisting at high rates. Finally, we show that hallucination behavior is shaped by model capacity, turn position, effective reasoning, and the type of knowledge required.
PDF13February 9, 2026