ChatPaper.aiChatPaper

PlainQAFact: Métrica Automática de Avaliação de Factualidade para Geração de Resumos em Linguagem Simples na Área Biomédica

PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation

March 11, 2025
Autores: Zhiwen You, Yue Guo
cs.AI

Resumo

Saídas alucinadas de modelos de linguagem representam riscos no domínio médico, especialmente para audiências leigas que tomam decisões relacionadas à saúde. Os métodos existentes de avaliação de factualidade, como os baseados em implicação e em perguntas e respostas (QA), enfrentam dificuldades na geração de resumos em linguagem simples (PLS) devido ao fenômeno de explicação elaborativa, que introduz conteúdo externo (por exemplo, definições, contexto, exemplos) ausente do documento original para melhorar a compreensão. Para abordar esse problema, introduzimos o PlainQAFact, um framework treinado em um conjunto de dados anotado manualmente e de granularidade fina, o PlainFact, para avaliar a factualidade tanto de frases simplificadas da fonte quanto de frases com explicações elaborativas. O PlainQAFact primeiro classifica o tipo de factualidade e, em seguida, avalia a factualidade usando um método de pontuação baseado em QA aumentado por recuperação de informações. Nossa abordagem é leve e computacionalmente eficiente. Resultados empíricos mostram que as métricas de factualidade existentes falham em avaliar efetivamente a factualidade em PLS, especialmente para explicações elaborativas, enquanto o PlainQAFact alcança desempenho de ponta. Analisamos ainda sua eficácia em diferentes fontes de conhecimento externo, estratégias de extração de respostas, medidas de sobreposição e níveis de granularidade de documentos, refinando sua avaliação geral de factualidade.
English
Hallucinated outputs from language models pose risks in the medical domain, especially for lay audiences making health-related decisions. Existing factuality evaluation methods, such as entailment- and question-answering-based (QA), struggle with plain language summary (PLS) generation due to elaborative explanation phenomenon, which introduces external content (e.g., definitions, background, examples) absent from the source document to enhance comprehension. To address this, we introduce PlainQAFact, a framework trained on a fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of both source-simplified and elaboratively explained sentences. PlainQAFact first classifies factuality type and then assesses factuality using a retrieval-augmented QA-based scoring method. Our approach is lightweight and computationally efficient. Empirical results show that existing factuality metrics fail to effectively evaluate factuality in PLS, especially for elaborative explanations, whereas PlainQAFact achieves state-of-the-art performance. We further analyze its effectiveness across external knowledge sources, answer extraction strategies, overlap measures, and document granularity levels, refining its overall factuality assessment.

Summary

AI-Generated Summary

PDF22March 13, 2025