ChatPaper.aiChatPaper

RadEval: Un marco de evaluación para textos de radiología

RadEval: A framework for radiology text evaluation

September 22, 2025
Autores: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI

Resumen

Presentamos RadEval, un marco unificado y de código abierto para evaluar textos radiológicos. RadEval consolida una amplia gama de métricas, desde la superposición clásica de n-gramas (BLEU, ROUGE) y medidas contextuales (BERTScore) hasta puntuaciones basadas en conceptos clínicos (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) y evaluadores avanzados basados en LLM (GREEN). Refinamos y estandarizamos las implementaciones, extendemos GREEN para admitir múltiples modalidades de imágenes con un modelo más ligero, y preentrenamos un codificador específico del dominio radiológico, demostrando un fuerte rendimiento en recuperación zero-shot. También publicamos un conjunto de datos expertos ricamente anotados con más de 450 etiquetas de errores clínicamente significativos y mostramos cómo diferentes métricas se correlacionan con el juicio de los radiólogos. Finalmente, RadEval proporciona herramientas de pruebas estadísticas y evaluaciones de modelos de referencia en múltiples conjuntos de datos disponibles públicamente, facilitando la reproducibilidad y la evaluación robusta en la generación de informes radiológicos.
English
We introduce RadEval, a unified, open-source framework for evaluating radiology texts. RadEval consolidates a diverse range of metrics, from classic n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and standardize implementations, extend GREEN to support multiple imaging modalities with a more lightweight model, and pretrain a domain-specific radiology encoder, demonstrating strong zero-shot retrieval performance. We also release a richly annotated expert dataset with over 450 clinically significant error labels and show how different metrics correlate with radiologist judgment. Finally, RadEval provides statistical testing tools and baseline model evaluations across multiple publicly available datasets, facilitating reproducibility and robust benchmarking in radiology report generation.
PDF12September 25, 2025