RadEval: Een raamwerk voor de evaluatie van radiologische teksten
RadEval: A framework for radiology text evaluation
September 22, 2025
Auteurs: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI
Samenvatting
We introduceren RadEval, een uniform, open-source raamwerk voor het evalueren van radiologische teksten. RadEval integreert een breed scala aan metrieken, van klassieke n-gram overlap (BLEU, ROUGE) en contextuele maatstaven (BERTScore) tot klinische concept-gebaseerde scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) en geavanceerde LLM-gebaseerde evaluatoren (GREEN). We verfijnen en standaardiseren de implementaties, breiden GREEN uit om meerdere beeldvormingsmodaliteiten te ondersteunen met een lichter model, en pretrainen een domeinspecifieke radiologie-encoder, die sterke zero-shot retrieval-prestaties demonstreert. We publiceren ook een rijk geannoteerde expertdataset met meer dan 450 klinisch significante foutlabels en laten zien hoe verschillende metrieken correleren met de beoordeling van radiologen. Tot slot biedt RadEval statistische testtools en baseline modelevaluaties over meerdere publiek beschikbare datasets, wat reproduceerbaarheid en robuuste benchmarking in radiologie-rapportgeneratie bevordert.
English
We introduce RadEval, a unified, open-source framework for evaluating
radiology texts. RadEval consolidates a diverse range of metrics, from classic
n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical
concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT,
TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and
standardize implementations, extend GREEN to support multiple imaging
modalities with a more lightweight model, and pretrain a domain-specific
radiology encoder, demonstrating strong zero-shot retrieval performance. We
also release a richly annotated expert dataset with over 450 clinically
significant error labels and show how different metrics correlate with
radiologist judgment. Finally, RadEval provides statistical testing tools and
baseline model evaluations across multiple publicly available datasets,
facilitating reproducibility and robust benchmarking in radiology report
generation.