PlainQAFact: 생의학 분야 일반 언어 요약 생성을 위한 자동 사실성 평가 지표
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation
March 11, 2025
저자: Zhiwen You, Yue Guo
cs.AI
초록
언어 모델에서 발생하는 환각적 출력은 의료 분야에서 특히 건강 관련 결정을 내리는 일반 대중에게 위험을 초래할 수 있습니다. 기존의 사실성 평가 방법, 예를 들어 함의 기반 및 질의응답 기반(QA) 방법은, 이해를 돕기 위해 원본 문서에 없는 외부 내용(예: 정의, 배경, 예시)을 도입하는 설명적 설명 현상으로 인해 일반 언어 요약(PLS) 생성에서 어려움을 겪습니다. 이를 해결하기 위해, 우리는 세분화된 인간 주석 데이터셋인 PlainFact를 기반으로 훈련된 PlainQAFact 프레임워크를 소개합니다. 이 프레임워크는 원본을 단순화한 문장과 설명적으로 설명된 문장의 사실성을 평가합니다. PlainQAFact는 먼저 사실성 유형을 분류한 후, 검색 강화 QA 기반 점수 방법을 사용하여 사실성을 평가합니다. 우리의 접근 방식은 경량이며 계산적으로 효율적입니다. 실험 결과는 기존의 사실성 메트릭이 PLS의 사실성을 효과적으로 평가하지 못하는 반면, 특히 설명적 설명에 대해 PlainQAFact가 최신 성능을 달성함을 보여줍니다. 우리는 외부 지식 소스, 답변 추출 전략, 중첩 측정 및 문서 세분화 수준에 걸쳐 그 효과를 추가로 분석하여 전반적인 사실성 평가를 개선합니다.
English
Hallucinated outputs from language models pose risks in the medical domain,
especially for lay audiences making health-related decisions. Existing
factuality evaluation methods, such as entailment- and question-answering-based
(QA), struggle with plain language summary (PLS) generation due to elaborative
explanation phenomenon, which introduces external content (e.g., definitions,
background, examples) absent from the source document to enhance comprehension.
To address this, we introduce PlainQAFact, a framework trained on a
fine-grained, human-annotated dataset PlainFact, to evaluate the factuality of
both source-simplified and elaboratively explained sentences. PlainQAFact first
classifies factuality type and then assesses factuality using a
retrieval-augmented QA-based scoring method. Our approach is lightweight and
computationally efficient. Empirical results show that existing factuality
metrics fail to effectively evaluate factuality in PLS, especially for
elaborative explanations, whereas PlainQAFact achieves state-of-the-art
performance. We further analyze its effectiveness across external knowledge
sources, answer extraction strategies, overlap measures, and document
granularity levels, refining its overall factuality assessment.Summary
AI-Generated Summary