ChatPaper.aiChatPaper

RadEval : Un cadre d'évaluation des textes en radiologie

RadEval: A framework for radiology text evaluation

September 22, 2025
papers.authors: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck
cs.AI

papers.abstract

Nous présentons RadEval, un cadre unifié et open-source pour l'évaluation des textes radiologiques. RadEval regroupe une diversité de métriques, allant des mesures classiques de chevauchement n-gram (BLEU, ROUGE) et des mesures contextuelles (BERTScore) aux scores basés sur des concepts cliniques (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) et aux évaluateurs avancés basés sur des modèles de langage de grande taille (GREEN). Nous affinons et standardisons les implémentations, étendons GREEN pour prendre en charge plusieurs modalités d'imagerie avec un modèle plus léger, et pré-entraînons un encodeur spécifique au domaine radiologique, démontrant de solides performances en récupération zero-shot. Nous publions également un ensemble de données expertes richement annoté avec plus de 450 labels d'erreurs cliniquement significatives, et montrons comment différentes métriques corrèlent avec le jugement des radiologues. Enfin, RadEval fournit des outils de tests statistiques et des évaluations de modèles de référence sur plusieurs ensembles de données publiquement disponibles, facilitant ainsi la reproductibilité et l'établissement de benchmarks robustes dans la génération de rapports radiologiques.
English
We introduce RadEval, a unified, open-source framework for evaluating radiology texts. RadEval consolidates a diverse range of metrics, from classic n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and standardize implementations, extend GREEN to support multiple imaging modalities with a more lightweight model, and pretrain a domain-specific radiology encoder, demonstrating strong zero-shot retrieval performance. We also release a richly annotated expert dataset with over 450 clinically significant error labels and show how different metrics correlate with radiologist judgment. Finally, RadEval provides statistical testing tools and baseline model evaluations across multiple publicly available datasets, facilitating reproducibility and robust benchmarking in radiology report generation.
PDF12September 25, 2025