ChatPaper.aiChatPaper

PlainQAFact: Métrica Automática de Evaluación de Factualidad para la Generación de Resúmenes en Lenguaje Sencillo en el Ámbito Biomédico

PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation

March 11, 2025
Autores: Zhiwen You, Yue Guo
cs.AI

Resumen

Las salidas alucinadas de los modelos de lenguaje representan riesgos en el ámbito médico, especialmente para audiencias no especializadas que toman decisiones relacionadas con la salud. Los métodos existentes de evaluación de factualidad, como los basados en implicación y en preguntas y respuestas (QA), enfrentan dificultades en la generación de resúmenes en lenguaje sencillo (PLS) debido al fenómeno de explicación elaborativa, que introduce contenido externo (por ejemplo, definiciones, antecedentes, ejemplos) ausente en el documento fuente para mejorar la comprensión. Para abordar esto, presentamos PlainQAFact, un marco entrenado en un conjunto de datos anotado por humanos y de grano fino, PlainFact, para evaluar la factualidad tanto de oraciones simplificadas del fuente como de aquellas con explicaciones elaborativas. PlainQAFact primero clasifica el tipo de factualidad y luego la evalúa utilizando un método de puntuación basado en QA aumentado con recuperación de información. Nuestro enfoque es ligero y computacionalmente eficiente. Los resultados empíricos muestran que las métricas de factualidad existentes no logran evaluar efectivamente la factualidad en PLS, especialmente en explicaciones elaborativas, mientras que PlainQAFact alcanza un rendimiento de vanguardia. Además, analizamos su efectividad en diversas fuentes de conocimiento externo, estrategias de extracción de respuestas, medidas de superposición y niveles de granularidad de documentos, refinando así su evaluación general de factualidad.
English
Hallucinated outputs from language models pose risks in the medical domain, especially for lay audiences making health-related decisions. Existing factuality evaluation methods, such as entailment- and question-answering-based (QA), struggle with plain language summary (PLS) generation due to elaborative explanation phenomenon, which introduces external content (e.g., definitions, background, examples) absent from the source document to enhance comprehension. To address this, we introduce PlainQAFact, a framework trained on a fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of both source-simplified and elaboratively explained sentences. PlainQAFact first classifies factuality type and then assesses factuality using a retrieval-augmented QA-based scoring method. Our approach is lightweight and computationally efficient. Empirical results show that existing factuality metrics fail to effectively evaluate factuality in PLS, especially for elaborative explanations, whereas PlainQAFact achieves state-of-the-art performance. We further analyze its effectiveness across external knowledge sources, answer extraction strategies, overlap measures, and document granularity levels, refining its overall factuality assessment.
PDF22March 13, 2025