ChatPaper.aiChatPaper

PlainQAFact: Metrica Automatica di Valutazione della Fattualità per la Generazione di Riassunti in Linguaggio Semplice nel Campo Biomedico

PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation

March 11, 2025
Autori: Zhiwen You, Yue Guo
cs.AI

Abstract

Le uscite allucinate dei modelli linguistici rappresentano un rischio nel dominio medico, in particolare per il pubblico non specializzato che prende decisioni relative alla salute. I metodi esistenti di valutazione della fattualità, come quelli basati sull'implicazione e sul question answering (QA), faticano con la generazione di riassunti in linguaggio semplice (PLS) a causa del fenomeno delle spiegazioni elaborate, che introduce contenuti esterni (ad esempio, definizioni, contesto, esempi) assenti dal documento originale per migliorare la comprensione. Per affrontare questo problema, introduciamo PlainQAFact, un framework addestrato su un dataset annotato manualmente e granulare, PlainFact, per valutare la fattualità sia delle frasi semplificate dalla fonte che di quelle spiegate in modo elaborato. PlainQAFact prima classifica il tipo di fattualità e poi valuta la fattualità utilizzando un metodo di punteggio basato su QA arricchito con il recupero di informazioni. Il nostro approccio è leggero e computazionalmente efficiente. I risultati empirici mostrano che le metriche di fattualità esistenti non riescono a valutare efficacemente la fattualità nei PLS, specialmente per le spiegazioni elaborate, mentre PlainQAFant raggiunge prestazioni all'avanguardia. Analizziamo ulteriormente la sua efficacia attraverso fonti di conoscenza esterne, strategie di estrazione delle risposte, misure di sovrapposizione e livelli di granularità dei documenti, affinando la sua valutazione complessiva della fattualità.
English
Hallucinated outputs from language models pose risks in the medical domain, especially for lay audiences making health-related decisions. Existing factuality evaluation methods, such as entailment- and question-answering-based (QA), struggle with plain language summary (PLS) generation due to elaborative explanation phenomenon, which introduces external content (e.g., definitions, background, examples) absent from the source document to enhance comprehension. To address this, we introduce PlainQAFact, a framework trained on a fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of both source-simplified and elaboratively explained sentences. PlainQAFact first classifies factuality type and then assesses factuality using a retrieval-augmented QA-based scoring method. Our approach is lightweight and computationally efficient. Empirical results show that existing factuality metrics fail to effectively evaluate factuality in PLS, especially for elaborative explanations, whereas PlainQAFact achieves state-of-the-art performance. We further analyze its effectiveness across external knowledge sources, answer extraction strategies, overlap measures, and document granularity levels, refining its overall factuality assessment.
PDF22March 13, 2025