RadEval: Ein Framework zur Bewertung von Radiologietexten
RadEval: A framework for radiology text evaluation
September 22, 2025
papers.authors: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI
papers.abstract
Wir stellen RadEval vor, ein einheitliches, Open-Source-Framework zur Bewertung von Radiologietexten. RadEval vereint eine Vielzahl von Metriken, von klassischen n-Gramm-Überlappungen (BLEU, ROUGE) und kontextbasierten Maßnahmen (BERTScore) über klinische konzeptbasierte Bewertungen (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) bis hin zu fortschrittlichen LLM-basierten Evaluatoren (GREEN). Wir verfeinern und standardisieren die Implementierungen, erweitern GREEN zur Unterstützung mehrerer Bildgebungsmodalitäten mit einem leichteren Modell und trainieren einen domänenspezifischen Radiologie-Encoder vor, der eine starke Zero-Shot-Retrieval-Leistung demonstriert. Zudem veröffentlichen wir einen umfangreich annotierten Experten-Datensatz mit über 450 klinisch relevanten Fehlerkennzeichnungen und zeigen, wie verschiedene Metriken mit der Beurteilung von Radiologen korrelieren. Schließlich bietet RadEval statistische Testwerkzeuge und Baseline-Modellbewertungen über mehrere öffentlich verfügbare Datensätze hinweg, was die Reproduzierbarkeit und robuste Benchmarking in der Generierung von Radiologieberichten erleichtert.
English
We introduce RadEval, a unified, open-source framework for evaluating
radiology texts. RadEval consolidates a diverse range of metrics, from classic
n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical
concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT,
TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and
standardize implementations, extend GREEN to support multiple imaging
modalities with a more lightweight model, and pretrain a domain-specific
radiology encoder, demonstrating strong zero-shot retrieval performance. We
also release a richly annotated expert dataset with over 450 clinically
significant error labels and show how different metrics correlate with
radiologist judgment. Finally, RadEval provides statistical testing tools and
baseline model evaluations across multiple publicly available datasets,
facilitating reproducibility and robust benchmarking in radiology report
generation.