ChatPaper.aiChatPaper

RadEval: Ein Framework zur Bewertung von Radiologietexten

RadEval: A framework for radiology text evaluation

September 22, 2025
papers.authors: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI

papers.abstract

Wir stellen RadEval vor, ein einheitliches, Open-Source-Framework zur Bewertung von Radiologietexten. RadEval vereint eine Vielzahl von Metriken, von klassischen n-Gramm-Überlappungen (BLEU, ROUGE) und kontextbasierten Maßnahmen (BERTScore) über klinische konzeptbasierte Bewertungen (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) bis hin zu fortschrittlichen LLM-basierten Evaluatoren (GREEN). Wir verfeinern und standardisieren die Implementierungen, erweitern GREEN zur Unterstützung mehrerer Bildgebungsmodalitäten mit einem leichteren Modell und trainieren einen domänenspezifischen Radiologie-Encoder vor, der eine starke Zero-Shot-Retrieval-Leistung demonstriert. Zudem veröffentlichen wir einen umfangreich annotierten Experten-Datensatz mit über 450 klinisch relevanten Fehlerkennzeichnungen und zeigen, wie verschiedene Metriken mit der Beurteilung von Radiologen korrelieren. Schließlich bietet RadEval statistische Testwerkzeuge und Baseline-Modellbewertungen über mehrere öffentlich verfügbare Datensätze hinweg, was die Reproduzierbarkeit und robuste Benchmarking in der Generierung von Radiologieberichten erleichtert.
English
We introduce RadEval, a unified, open-source framework for evaluating radiology texts. RadEval consolidates a diverse range of metrics, from classic n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and standardize implementations, extend GREEN to support multiple imaging modalities with a more lightweight model, and pretrain a domain-specific radiology encoder, demonstrating strong zero-shot retrieval performance. We also release a richly annotated expert dataset with over 450 clinically significant error labels and show how different metrics correlate with radiologist judgment. Finally, RadEval provides statistical testing tools and baseline model evaluations across multiple publicly available datasets, facilitating reproducibility and robust benchmarking in radiology report generation.
PDF12September 25, 2025