ChatPaper.aiChatPaper

Detecção de Alucinações Contextualizadas em Nível Fino Utilizando LLMs

Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs

September 26, 2025
Autores: Yehonatan Peisakhovsky, Zorik Gekhman, Yosi Mass, Liat Ein-Dor, Roi Reichart
cs.AI

Resumo

Alucinações fundamentadas no contexto são casos em que as saídas do modelo contêm informações que não podem ser verificadas em relação ao texto fonte. Estudamos a aplicabilidade de LLMs (Modelos de Linguagem de Grande Escala) para localizar tais alucinações, como uma alternativa mais prática aos pipelines complexos de avaliação existentes. Na ausência de benchmarks estabelecidos para meta-avaliação da localização de alucinações, construímos um adaptado para LLMs, envolvendo uma anotação humana desafiadora de mais de 1.000 exemplos. Complementamos o benchmark com um protocolo de avaliação baseado em LLM, verificando sua qualidade em uma avaliação humana. Como as representações existentes de alucinações limitam os tipos de erros que podem ser expressos, propomos uma nova representação baseada em descrições textuais livres, capturando a gama completa de erros possíveis. Realizamos um estudo abrangente, avaliando quatro LLMs de grande escala, que destaca a dificuldade do benchmark, já que o melhor modelo alcança um F1-score de apenas 0,67. Por meio de uma análise cuidadosa, oferecemos insights sobre estratégias de prompt ideais para a tarefa e identificamos os principais fatores que a tornam desafiadora para LLMs: (1) uma tendência a sinalizar incorretamente detalhes ausentes como inconsistentes, apesar de serem instruídos a verificar apenas fatos na saída; e (2) dificuldade com saídas que contêm informações factualmente corretas, mas ausentes da fonte - e, portanto, não verificáveis - devido ao alinhamento com o conhecimento paramétrico do modelo.
English
Context-grounded hallucinations are cases where model outputs contain information not verifiable against the source text. We study the applicability of LLMs for localizing such hallucinations, as a more practical alternative to existing complex evaluation pipelines. In the absence of established benchmarks for meta-evaluation of hallucinations localization, we construct one tailored to LLMs, involving a challenging human annotation of over 1,000 examples. We complement the benchmark with an LLM-based evaluation protocol, verifying its quality in a human evaluation. Since existing representations of hallucinations limit the types of errors that can be expressed, we propose a new representation based on free-form textual descriptions, capturing the full range of possible errors. We conduct a comprehensive study, evaluating four large-scale LLMs, which highlights the benchmark's difficulty, as the best model achieves an F1 score of only 0.67. Through careful analysis, we offer insights into optimal prompting strategies for the task and identify the main factors that make it challenging for LLMs: (1) a tendency to incorrectly flag missing details as inconsistent, despite being instructed to check only facts in the output; and (2) difficulty with outputs containing factually correct information absent from the source - and thus not verifiable - due to alignment with the model's parametric knowledge.
PDF102October 3, 2025