PlainQAFact : Métrique d'évaluation automatique de la factualité pour la génération de résumés en langage simple dans le domaine biomédical
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation
March 11, 2025
Auteurs: Zhiwen You, Yue Guo
cs.AI
Résumé
Les sorties hallucinées des modèles de langage présentent des risques dans le domaine médical, en particulier pour les publics non experts prenant des décisions liées à la santé. Les méthodes existantes d'évaluation de la factualité, telles que celles basées sur l'implication et les questions-réponses (QA), peinent à évaluer la génération de résumés en langage simple (PLS) en raison du phénomène d'explication élaborative, qui introduit du contenu externe (par exemple, des définitions, des contextes, des exemples) absent du document source pour améliorer la compréhension. Pour résoudre ce problème, nous présentons PlainQAFact, un cadre entraîné sur un ensemble de données annoté manuellement et granulaire, PlainFact, afin d'évaluer la factualité des phrases simplifiées à partir de la source et des phrases expliquées de manière élaborative. PlainQAFact classe d'abord le type de factualité, puis évalue la factualité à l'aide d'une méthode de notation basée sur les questions-réponses et augmentée par la recherche d'informations. Notre approche est légère et efficace sur le plan computationnel. Les résultats empiriques montrent que les métriques de factualité existantes échouent à évaluer efficacement la factualité dans les PLS, en particulier pour les explications élaboratives, tandis que PlainQAFact atteint des performances de pointe. Nous analysons en outre son efficacité à travers les sources de connaissances externes, les stratégies d'extraction de réponses, les mesures de chevauchement et les niveaux de granularité des documents, affinant ainsi son évaluation globale de la factualité.
English
Hallucinated outputs from language models pose risks in the medical domain,
especially for lay audiences making health-related decisions. Existing
factuality evaluation methods, such as entailment- and question-answering-based
(QA), struggle with plain language summary (PLS) generation due to elaborative
explanation phenomenon, which introduces external content (e.g., definitions,
background, examples) absent from the source document to enhance comprehension.
To address this, we introduce PlainQAFact, a framework trained on a
fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of
both source-simplified and elaboratively explained sentences. PlainQAFact first
classifies factuality type and then assesses factuality using a
retrieval-augmented QA-based scoring method. Our approach is lightweight and
computationally efficient. Empirical results show that existing factuality
metrics fail to effectively evaluate factuality in PLS, especially for
elaborative explanations, whereas PlainQAFact achieves state-of-the-art
performance. We further analyze its effectiveness across external knowledge
sources, answer extraction strategies, overlap measures, and document
granularity levels, refining its overall factuality assessment.Summary
AI-Generated Summary