ChatPaper.aiChatPaper

RadEval: 방사학 텍스트 평가를 위한 프레임워크

RadEval: A framework for radiology text evaluation

September 22, 2025
저자: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI

초록

우리는 방사선학 텍스트 평가를 위한 통합 오픈소스 프레임워크인 RadEval을 소개한다. RadEval은 고전적인 n-gram 중첩 지표(BLEU, ROUGE)와 문맥 기반 측정(BERTScore)부터 임상 개념 기반 점수(F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) 및 고급 LLM 기반 평가자(GREEN)에 이르기까지 다양한 메트릭을 통합한다. 우리는 구현을 개선하고 표준화하며, GREEN을 더 가벼운 모델로 확장하여 다중 영상 양식을 지원하고, 도메인 특화 방사선학 인코더를 사전 학습하여 강력한 제로샷 검색 성능을 입증한다. 또한 450개 이상의 임상적으로 중요한 오류 레이블이 포함된 전문가 주석 데이터셋을 공개하고, 다양한 메트릭이 방사선 전문가의 판단과 어떻게 상관관계를 가지는지 보여준다. 마지막으로, RadEval은 통계적 검증 도구와 공개적으로 이용 가능한 다중 데이터셋에 대한 베이스라인 모델 평가를 제공함으로써 방사선학 보고서 생성 분야에서 재현성과 견고한 벤치마킹을 용이하게 한다.
English
We introduce RadEval, a unified, open-source framework for evaluating radiology texts. RadEval consolidates a diverse range of metrics, from classic n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and standardize implementations, extend GREEN to support multiple imaging modalities with a more lightweight model, and pretrain a domain-specific radiology encoder, demonstrating strong zero-shot retrieval performance. We also release a richly annotated expert dataset with over 450 clinically significant error labels and show how different metrics correlate with radiologist judgment. Finally, RadEval provides statistical testing tools and baseline model evaluations across multiple publicly available datasets, facilitating reproducibility and robust benchmarking in radiology report generation.
PDF12September 25, 2025