PlainQAFact: Métrica Automática de Avaliação de Factualidade para Geração de Resumos em Linguagem Simples na Área Biomédica
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation
March 11, 2025
Autores: Zhiwen You, Yue Guo
cs.AI
Resumo
Saídas alucinadas de modelos de linguagem representam riscos no domínio médico,
especialmente para audiências leigas que tomam decisões relacionadas à saúde. Os
métodos existentes de avaliação de factualidade, como os baseados em implicação
e em perguntas e respostas (QA), enfrentam dificuldades na geração de resumos
em linguagem simples (PLS) devido ao fenômeno de explicação elaborativa, que
introduz conteúdo externo (por exemplo, definições, contexto, exemplos) ausente
do documento original para melhorar a compreensão. Para abordar esse problema,
introduzimos o PlainQAFact, um framework treinado em um conjunto de dados
anotado manualmente e de granularidade fina, o PlainFact, para avaliar a
factualidade tanto de frases simplificadas da fonte quanto de frases com
explicações elaborativas. O PlainQAFact primeiro classifica o tipo de
factualidade e, em seguida, avalia a factualidade usando um método de pontuação
baseado em QA aumentado por recuperação de informações. Nossa abordagem é leve
e computacionalmente eficiente. Resultados empíricos mostram que as métricas de
factualidade existentes falham em avaliar efetivamente a factualidade em PLS,
especialmente para explicações elaborativas, enquanto o PlainQAFact alcança
desempenho de ponta. Analisamos ainda sua eficácia em diferentes fontes de
conhecimento externo, estratégias de extração de respostas, medidas de
sobreposição e níveis de granularidade de documentos, refinando sua avaliação
geral de factualidade.
English
Hallucinated outputs from language models pose risks in the medical domain,
especially for lay audiences making health-related decisions. Existing
factuality evaluation methods, such as entailment- and question-answering-based
(QA), struggle with plain language summary (PLS) generation due to elaborative
explanation phenomenon, which introduces external content (e.g., definitions,
background, examples) absent from the source document to enhance comprehension.
To address this, we introduce PlainQAFact, a framework trained on a
fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of
both source-simplified and elaboratively explained sentences. PlainQAFact first
classifies factuality type and then assesses factuality using a
retrieval-augmented QA-based scoring method. Our approach is lightweight and
computationally efficient. Empirical results show that existing factuality
metrics fail to effectively evaluate factuality in PLS, especially for
elaborative explanations, whereas PlainQAFact achieves state-of-the-art
performance. We further analyze its effectiveness across external knowledge
sources, answer extraction strategies, overlap measures, and document
granularity levels, refining its overall factuality assessment.Summary
AI-Generated Summary