ChatPaper.aiChatPaper

RadEval: Фреймворк для оценки радиологических текстов

RadEval: A framework for radiology text evaluation

September 22, 2025
Авторы: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI

Аннотация

Мы представляем RadEval — унифицированную открытую платформу для оценки радиологических текстов. RadEval объединяет широкий спектр метрик, начиная с классических мер перекрытия n-грамм (BLEU, ROUGE) и контекстных показателей (BERTScore), заканчивая клинически ориентированными оценками (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) и продвинутыми методами на основе крупных языковых моделей (GREEN). Мы улучшаем и стандартизируем реализации, расширяем GREEN для поддержки множества методов визуализации с использованием более легковесной модели и предобучаем специализированный радиологический энкодер, демонстрирующий высокую производительность в задачах нулевого сценария поиска. Также мы публикуем богато аннотированный экспертный набор данных с более чем 450 клинически значимыми метками ошибок и показываем, как различные метрики коррелируют с оценками радиологов. Наконец, RadEval предоставляет инструменты для статистического тестирования и оценки базовых моделей на нескольких общедоступных наборах данных, способствуя воспроизводимости и надежному бенчмаркингу в генерации радиологических отчетов.
English
We introduce RadEval, a unified, open-source framework for evaluating radiology texts. RadEval consolidates a diverse range of metrics, from classic n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and standardize implementations, extend GREEN to support multiple imaging modalities with a more lightweight model, and pretrain a domain-specific radiology encoder, demonstrating strong zero-shot retrieval performance. We also release a richly annotated expert dataset with over 450 clinically significant error labels and show how different metrics correlate with radiologist judgment. Finally, RadEval provides statistical testing tools and baseline model evaluations across multiple publicly available datasets, facilitating reproducibility and robust benchmarking in radiology report generation.
PDF12September 25, 2025