ChatPaper.aiChatPaper

RadEval: Un framework per la valutazione dei testi radiologici

RadEval: A framework for radiology text evaluation

September 22, 2025
Autori: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI

Abstract

Presentiamo RadEval, un framework unificato e open-source per la valutazione di testi radiologici. RadEval consolida una vasta gamma di metriche, dai classici overlap di n-grammi (BLEU, ROUGE) e misure contestuali (BERTScore) a punteggi basati su concetti clinici (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) e valutatori avanzati basati su LLM (GREEN). Affiniamo e standardizziamo le implementazioni, estendiamo GREEN per supportare multiple modalità di imaging con un modello più leggero, e pre-addestriamo un encoder specifico per il dominio radiologico, dimostrando una forte performance di recupero zero-shot. Rilasciamo inoltre un dataset riccamente annotato da esperti con oltre 450 etichette di errori clinicamente significativi e mostriamo come diverse metriche si correlino con il giudizio dei radiologi. Infine, RadEval fornisce strumenti di test statistici e valutazioni di modelli di riferimento su più dataset pubblicamente disponibili, facilitando la riproducibilità e il benchmarking robusto nella generazione di referti radiologici.
English
We introduce RadEval, a unified, open-source framework for evaluating radiology texts. RadEval consolidates a diverse range of metrics, from classic n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and standardize implementations, extend GREEN to support multiple imaging modalities with a more lightweight model, and pretrain a domain-specific radiology encoder, demonstrating strong zero-shot retrieval performance. We also release a richly annotated expert dataset with over 450 clinically significant error labels and show how different metrics correlate with radiologist judgment. Finally, RadEval provides statistical testing tools and baseline model evaluations across multiple publicly available datasets, facilitating reproducibility and robust benchmarking in radiology report generation.
PDF12September 25, 2025