ChatPaper.aiChatPaper

RadEval: Um framework para avaliação de textos em radiologia

RadEval: A framework for radiology text evaluation

September 22, 2025
Autores: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI

Resumo

Apresentamos o RadEval, um framework unificado e de código aberto para avaliação de textos radiológicos. O RadEval consolida uma ampla gama de métricas, desde sobreposição clássica de n-gramas (BLEU, ROUGE) e medidas contextuais (BERTScore) até pontuações baseadas em conceitos clínicos (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) e avaliadores avançados baseados em LLMs (GREEN). Refinamos e padronizamos as implementações, estendemos o GREEN para suportar múltiplas modalidades de imagem com um modelo mais leve e pré-treinamos um codificador específico para radiologia, demonstrando forte desempenho em recuperação zero-shot. Também disponibilizamos um conjunto de dados ricamente anotado por especialistas, com mais de 450 rótulos de erros clinicamente significativos, e mostramos como diferentes métricas se correlacionam com o julgamento de radiologistas. Por fim, o RadEval fornece ferramentas de teste estatístico e avaliações de modelos de referência em múltiplos conjuntos de dados publicamente disponíveis, facilitando a reprodutibilidade e o benchmarking robusto na geração de relatórios radiológicos.
English
We introduce RadEval, a unified, open-source framework for evaluating radiology texts. RadEval consolidates a diverse range of metrics, from classic n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and standardize implementations, extend GREEN to support multiple imaging modalities with a more lightweight model, and pretrain a domain-specific radiology encoder, demonstrating strong zero-shot retrieval performance. We also release a richly annotated expert dataset with over 450 clinically significant error labels and show how different metrics correlate with radiologist judgment. Finally, RadEval provides statistical testing tools and baseline model evaluations across multiple publicly available datasets, facilitating reproducibility and robust benchmarking in radiology report generation.
PDF12September 25, 2025