RaTEScore: 영상의학 보고서 생성을 위한 평가 지표
RaTEScore: A Metric for Radiology Report Generation
June 24, 2024
저자: Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
초록
본 논문은 AI 모델이 생성한 의학 보고서의 품질을 평가하기 위해 'RaTEScore(Radiological Report (Text) Evaluation)'라는 새로운 엔티티 인식 지표를 소개합니다. RaTEScore는 진단 결과 및 해부학적 세부 사항과 같은 중요한 의학 엔티티를 강조하며, 복잡한 의학 동의어에 강건하고 부정 표현에 민감합니다. 기술적으로, 우리는 포괄적인 의학 NER 데이터셋인 RaTE-NER를 개발하고 이를 위해 특화된 NER 모델을 학습시켰습니다. 이 모델은 복잡한 방사선학적 보고서를 구성 의학 엔티티로 분해할 수 있게 합니다. 이 지표는 언어 모델에서 얻은 엔티티 임베딩의 유사성을 그 유형과 임상적 중요성에 기반하여 비교함으로써 도출됩니다. 우리의 평가 결과, RaTEScore는 기존 지표들보다 인간의 선호도와 더 밀접하게 일치하며, 이는 기존의 공개 벤치마크와 우리가 새롭게 제안한 RaTE-Eval 벤치마크에서 모두 검증되었습니다.
English
This paper introduces a novel, entity-aware metric, termed as Radiological
Report (Text) Evaluation (RaTEScore), to assess the quality of medical reports
generated by AI models. RaTEScore emphasizes crucial medical entities such as
diagnostic outcomes and anatomical details, and is robust against complex
medical synonyms and sensitive to negation expressions. Technically, we
developed a comprehensive medical NER dataset, RaTE-NER, and trained an NER
model specifically for this purpose. This model enables the decomposition of
complex radiological reports into constituent medical entities. The metric
itself is derived by comparing the similarity of entity embeddings, obtained
from a language model, based on their types and relevance to clinical
significance. Our evaluations demonstrate that RaTEScore aligns more closely
with human preference than existing metrics, validated both on established
public benchmarks and our newly proposed RaTE-Eval benchmark.Summary
AI-Generated Summary