ChatPaper.aiChatPaper

Rilevamento Fine-Grained di Allucinazioni Basate sul Contesto Utilizzando LLM

Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs

September 26, 2025
Autori: Yehonatan Peisakhovsky, Zorik Gekhman, Yosi Mass, Liat Ein-Dor, Roi Reichart
cs.AI

Abstract

Le allucinazioni contestualizzate sono casi in cui gli output del modello contengono informazioni non verificabili rispetto al testo sorgente. Studiamo l'applicabilità dei modelli linguistici di grandi dimensioni (LLM) per localizzare tali allucinazioni, come alternativa più pratica alle complesse pipeline di valutazione esistenti. In assenza di benchmark consolidati per la meta-valutazione della localizzazione delle allucinazioni, ne costruiamo uno su misura per gli LLM, che coinvolge un'annotazione umana impegnativa di oltre 1.000 esempi. Integriamo il benchmark con un protocollo di valutazione basato su LLM, verificandone la qualità attraverso una valutazione umana. Poiché le rappresentazioni esistenti delle allucinazioni limitano i tipi di errori che possono essere espressi, proponiamo una nuova rappresentazione basata su descrizioni testuali libere, che cattura l'intera gamma di possibili errori. Condurremo uno studio completo, valutando quattro LLM su larga scala, che evidenzia la difficoltà del benchmark, poiché il modello migliore raggiunge un punteggio F1 di soli 0,67. Attraverso un'analisi attenta, offriamo approfondimenti sulle strategie di prompting ottimali per il compito e identifichiamo i principali fattori che lo rendono impegnativo per gli LLM: (1) una tendenza a contrassegnare erroneamente dettagli mancanti come incoerenti, nonostante venga loro richiesto di controllare solo i fatti nell'output; e (2) difficoltà con output che contengono informazioni fattualmente corrette assenti dalla sorgente - e quindi non verificabili - a causa dell'allineamento con la conoscenza parametrica del modello.
English
Context-grounded hallucinations are cases where model outputs contain information not verifiable against the source text. We study the applicability of LLMs for localizing such hallucinations, as a more practical alternative to existing complex evaluation pipelines. In the absence of established benchmarks for meta-evaluation of hallucinations localization, we construct one tailored to LLMs, involving a challenging human annotation of over 1,000 examples. We complement the benchmark with an LLM-based evaluation protocol, verifying its quality in a human evaluation. Since existing representations of hallucinations limit the types of errors that can be expressed, we propose a new representation based on free-form textual descriptions, capturing the full range of possible errors. We conduct a comprehensive study, evaluating four large-scale LLMs, which highlights the benchmark's difficulty, as the best model achieves an F1 score of only 0.67. Through careful analysis, we offer insights into optimal prompting strategies for the task and identify the main factors that make it challenging for LLMs: (1) a tendency to incorrectly flag missing details as inconsistent, despite being instructed to check only facts in the output; and (2) difficulty with outputs containing factually correct information absent from the source - and thus not verifiable - due to alignment with the model's parametric knowledge.
PDF102October 3, 2025