PlainQAFact: Metrica Automatica di Valutazione della Fattualità per la Generazione di Riassunti in Linguaggio Semplice nel Campo Biomedico
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation
March 11, 2025
Autori: Zhiwen You, Yue Guo
cs.AI
Abstract
Le uscite allucinate dei modelli linguistici rappresentano un rischio nel dominio medico, in particolare per il pubblico non specializzato che prende decisioni relative alla salute. I metodi esistenti di valutazione della fattualità, come quelli basati sull'implicazione e sul question answering (QA), faticano con la generazione di riassunti in linguaggio semplice (PLS) a causa del fenomeno delle spiegazioni elaborate, che introduce contenuti esterni (ad esempio, definizioni, contesto, esempi) assenti dal documento originale per migliorare la comprensione. Per affrontare questo problema, introduciamo PlainQAFact, un framework addestrato su un dataset annotato manualmente e granulare, PlainFact, per valutare la fattualità sia delle frasi semplificate dalla fonte che di quelle spiegate in modo elaborato. PlainQAFact prima classifica il tipo di fattualità e poi valuta la fattualità utilizzando un metodo di punteggio basato su QA arricchito con il recupero di informazioni. Il nostro approccio è leggero e computazionalmente efficiente. I risultati empirici mostrano che le metriche di fattualità esistenti non riescono a valutare efficacemente la fattualità nei PLS, specialmente per le spiegazioni elaborate, mentre PlainQAFant raggiunge prestazioni all'avanguardia. Analizziamo ulteriormente la sua efficacia attraverso fonti di conoscenza esterne, strategie di estrazione delle risposte, misure di sovrapposizione e livelli di granularità dei documenti, affinando la sua valutazione complessiva della fattualità.
English
Hallucinated outputs from language models pose risks in the medical domain,
especially for lay audiences making health-related decisions. Existing
factuality evaluation methods, such as entailment- and question-answering-based
(QA), struggle with plain language summary (PLS) generation due to elaborative
explanation phenomenon, which introduces external content (e.g., definitions,
background, examples) absent from the source document to enhance comprehension.
To address this, we introduce PlainQAFact, a framework trained on a
fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of
both source-simplified and elaboratively explained sentences. PlainQAFact first
classifies factuality type and then assesses factuality using a
retrieval-augmented QA-based scoring method. Our approach is lightweight and
computationally efficient. Empirical results show that existing factuality
metrics fail to effectively evaluate factuality in PLS, especially for
elaborative explanations, whereas PlainQAFact achieves state-of-the-art
performance. We further analyze its effectiveness across external knowledge
sources, answer extraction strategies, overlap measures, and document
granularity levels, refining its overall factuality assessment.