RadEval: Фреймворк для оценки радиологических текстов
RadEval: A framework for radiology text evaluation
September 22, 2025
Авторы: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI
Аннотация
Мы представляем RadEval — унифицированную открытую платформу для оценки радиологических текстов. RadEval объединяет широкий спектр метрик, начиная с классических мер перекрытия n-грамм (BLEU, ROUGE) и контекстных показателей (BERTScore), заканчивая клинически ориентированными оценками (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) и продвинутыми методами на основе крупных языковых моделей (GREEN). Мы улучшаем и стандартизируем реализации, расширяем GREEN для поддержки множества методов визуализации с использованием более легковесной модели и предобучаем специализированный радиологический энкодер, демонстрирующий высокую производительность в задачах нулевого сценария поиска. Также мы публикуем богато аннотированный экспертный набор данных с более чем 450 клинически значимыми метками ошибок и показываем, как различные метрики коррелируют с оценками радиологов. Наконец, RadEval предоставляет инструменты для статистического тестирования и оценки базовых моделей на нескольких общедоступных наборах данных, способствуя воспроизводимости и надежному бенчмаркингу в генерации радиологических отчетов.
English
We introduce RadEval, a unified, open-source framework for evaluating
radiology texts. RadEval consolidates a diverse range of metrics, from classic
n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical
concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT,
TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and
standardize implementations, extend GREEN to support multiple imaging
modalities with a more lightweight model, and pretrain a domain-specific
radiology encoder, demonstrating strong zero-shot retrieval performance. We
also release a richly annotated expert dataset with over 450 clinically
significant error labels and show how different metrics correlate with
radiologist judgment. Finally, RadEval provides statistical testing tools and
baseline model evaluations across multiple publicly available datasets,
facilitating reproducibility and robust benchmarking in radiology report
generation.