RadEval: Um framework para avaliação de textos em radiologia
RadEval: A framework for radiology text evaluation
September 22, 2025
Autores: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI
Resumo
Apresentamos o RadEval, um framework unificado e de código aberto para avaliação de textos radiológicos. O RadEval consolida uma ampla gama de métricas, desde sobreposição clássica de n-gramas (BLEU, ROUGE) e medidas contextuais (BERTScore) até pontuações baseadas em conceitos clínicos (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) e avaliadores avançados baseados em LLMs (GREEN). Refinamos e padronizamos as implementações, estendemos o GREEN para suportar múltiplas modalidades de imagem com um modelo mais leve e pré-treinamos um codificador específico para radiologia, demonstrando forte desempenho em recuperação zero-shot. Também disponibilizamos um conjunto de dados ricamente anotado por especialistas, com mais de 450 rótulos de erros clinicamente significativos, e mostramos como diferentes métricas se correlacionam com o julgamento de radiologistas. Por fim, o RadEval fornece ferramentas de teste estatístico e avaliações de modelos de referência em múltiplos conjuntos de dados publicamente disponíveis, facilitando a reprodutibilidade e o benchmarking robusto na geração de relatórios radiológicos.
English
We introduce RadEval, a unified, open-source framework for evaluating
radiology texts. RadEval consolidates a diverse range of metrics, from classic
n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical
concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT,
TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and
standardize implementations, extend GREEN to support multiple imaging
modalities with a more lightweight model, and pretrain a domain-specific
radiology encoder, demonstrating strong zero-shot retrieval performance. We
also release a richly annotated expert dataset with over 450 clinically
significant error labels and show how different metrics correlate with
radiologist judgment. Finally, RadEval provides statistical testing tools and
baseline model evaluations across multiple publicly available datasets,
facilitating reproducibility and robust benchmarking in radiology report
generation.