RadEval: Un framework per la valutazione dei testi radiologici
RadEval: A framework for radiology text evaluation
September 22, 2025
Autori: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI
Abstract
Presentiamo RadEval, un framework unificato e open-source per la valutazione di testi radiologici. RadEval consolida una vasta gamma di metriche, dai classici overlap di n-grammi (BLEU, ROUGE) e misure contestuali (BERTScore) a punteggi basati su concetti clinici (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) e valutatori avanzati basati su LLM (GREEN). Affiniamo e standardizziamo le implementazioni, estendiamo GREEN per supportare multiple modalità di imaging con un modello più leggero, e pre-addestriamo un encoder specifico per il dominio radiologico, dimostrando una forte performance di recupero zero-shot. Rilasciamo inoltre un dataset riccamente annotato da esperti con oltre 450 etichette di errori clinicamente significativi e mostriamo come diverse metriche si correlino con il giudizio dei radiologi. Infine, RadEval fornisce strumenti di test statistici e valutazioni di modelli di riferimento su più dataset pubblicamente disponibili, facilitando la riproducibilità e il benchmarking robusto nella generazione di referti radiologici.
English
We introduce RadEval, a unified, open-source framework for evaluating
radiology texts. RadEval consolidates a diverse range of metrics, from classic
n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical
concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT,
TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and
standardize implementations, extend GREEN to support multiple imaging
modalities with a more lightweight model, and pretrain a domain-specific
radiology encoder, demonstrating strong zero-shot retrieval performance. We
also release a richly annotated expert dataset with over 450 clinically
significant error labels and show how different metrics correlate with
radiologist judgment. Finally, RadEval provides statistical testing tools and
baseline model evaluations across multiple publicly available datasets,
facilitating reproducibility and robust benchmarking in radiology report
generation.