ChatPaper.aiChatPaper

RadEval: Een raamwerk voor de evaluatie van radiologische teksten

RadEval: A framework for radiology text evaluation

September 22, 2025
Auteurs: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI

Samenvatting

We introduceren RadEval, een uniform, open-source raamwerk voor het evalueren van radiologische teksten. RadEval integreert een breed scala aan metrieken, van klassieke n-gram overlap (BLEU, ROUGE) en contextuele maatstaven (BERTScore) tot klinische concept-gebaseerde scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) en geavanceerde LLM-gebaseerde evaluatoren (GREEN). We verfijnen en standaardiseren de implementaties, breiden GREEN uit om meerdere beeldvormingsmodaliteiten te ondersteunen met een lichter model, en pretrainen een domeinspecifieke radiologie-encoder, die sterke zero-shot retrieval-prestaties demonstreert. We publiceren ook een rijk geannoteerde expertdataset met meer dan 450 klinisch significante foutlabels en laten zien hoe verschillende metrieken correleren met de beoordeling van radiologen. Tot slot biedt RadEval statistische testtools en baseline modelevaluaties over meerdere publiek beschikbare datasets, wat reproduceerbaarheid en robuuste benchmarking in radiologie-rapportgeneratie bevordert.
English
We introduce RadEval, a unified, open-source framework for evaluating radiology texts. RadEval consolidates a diverse range of metrics, from classic n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and standardize implementations, extend GREEN to support multiple imaging modalities with a more lightweight model, and pretrain a domain-specific radiology encoder, demonstrating strong zero-shot retrieval performance. We also release a richly annotated expert dataset with over 450 clinically significant error labels and show how different metrics correlate with radiologist judgment. Finally, RadEval provides statistical testing tools and baseline model evaluations across multiple publicly available datasets, facilitating reproducibility and robust benchmarking in radiology report generation.
PDF12September 25, 2025