PlainQAFact: Métrica Automática de Evaluación de Factualidad para la Generación de Resúmenes en Lenguaje Sencillo en el Ámbito Biomédico
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation
March 11, 2025
Autores: Zhiwen You, Yue Guo
cs.AI
Resumen
Las salidas alucinadas de los modelos de lenguaje representan riesgos en el ámbito médico, especialmente para audiencias no especializadas que toman decisiones relacionadas con la salud. Los métodos existentes de evaluación de factualidad, como los basados en implicación y en preguntas y respuestas (QA), enfrentan dificultades en la generación de resúmenes en lenguaje sencillo (PLS) debido al fenómeno de explicación elaborativa, que introduce contenido externo (por ejemplo, definiciones, antecedentes, ejemplos) ausente en el documento fuente para mejorar la comprensión. Para abordar esto, presentamos PlainQAFact, un marco entrenado en un conjunto de datos anotado por humanos y de grano fino, PlainFact, para evaluar la factualidad tanto de oraciones simplificadas del fuente como de aquellas con explicaciones elaborativas. PlainQAFact primero clasifica el tipo de factualidad y luego la evalúa utilizando un método de puntuación basado en QA aumentado con recuperación de información. Nuestro enfoque es ligero y computacionalmente eficiente. Los resultados empíricos muestran que las métricas de factualidad existentes no logran evaluar efectivamente la factualidad en PLS, especialmente en explicaciones elaborativas, mientras que PlainQAFact alcanza un rendimiento de vanguardia. Además, analizamos su efectividad en diversas fuentes de conocimiento externo, estrategias de extracción de respuestas, medidas de superposición y niveles de granularidad de documentos, refinando así su evaluación general de factualidad.
English
Hallucinated outputs from language models pose risks in the medical domain,
especially for lay audiences making health-related decisions. Existing
factuality evaluation methods, such as entailment- and question-answering-based
(QA), struggle with plain language summary (PLS) generation due to elaborative
explanation phenomenon, which introduces external content (e.g., definitions,
background, examples) absent from the source document to enhance comprehension.
To address this, we introduce PlainQAFact, a framework trained on a
fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of
both source-simplified and elaboratively explained sentences. PlainQAFact first
classifies factuality type and then assesses factuality using a
retrieval-augmented QA-based scoring method. Our approach is lightweight and
computationally efficient. Empirical results show that existing factuality
metrics fail to effectively evaluate factuality in PLS, especially for
elaborative explanations, whereas PlainQAFact achieves state-of-the-art
performance. We further analyze its effectiveness across external knowledge
sources, answer extraction strategies, overlap measures, and document
granularity levels, refining its overall factuality assessment.