RaTEScore : Une métrique pour la génération de rapports radiologiques
RaTEScore: A Metric for Radiology Report Generation
June 24, 2024
Auteurs: Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
Résumé
Cet article présente une nouvelle métrique prenant en compte les entités, appelée Radiological Report (Text) Evaluation (RaTEScore), pour évaluer la qualité des rapports médicaux générés par des modèles d'IA. RaTEScore met l'accent sur des entités médicales cruciales telles que les résultats diagnostiques et les détails anatomiques, tout en étant robuste face aux synonymes médicaux complexes et sensible aux expressions de négation. Sur le plan technique, nous avons développé un ensemble de données complet pour la reconnaissance d'entités nommées (NER) médicales, RaTE-NER, et entraîné un modèle NER spécifiquement à cette fin. Ce modèle permet de décomposer les rapports radiologiques complexes en leurs entités médicales constitutives. La métrique elle-même est dérivée en comparant la similarité des embeddings d'entités, obtenus à partir d'un modèle de langage, en fonction de leurs types et de leur pertinence clinique. Nos évaluations démontrent que RaTEScore s'aligne plus étroitement avec les préférences humaines que les métriques existantes, validées à la fois sur des benchmarks publics établis et sur notre nouveau benchmark proposé, RaTE-Eval.
English
This paper introduces a novel, entity-aware metric, termed as Radiological
Report (Text) Evaluation (RaTEScore), to assess the quality of medical reports
generated by AI models. RaTEScore emphasizes crucial medical entities such as
diagnostic outcomes and anatomical details, and is robust against complex
medical synonyms and sensitive to negation expressions. Technically, we
developed a comprehensive medical NER dataset, RaTE-NER, and trained an NER
model specifically for this purpose. This model enables the decomposition of
complex radiological reports into constituent medical entities. The metric
itself is derived by comparing the similarity of entity embeddings, obtained
from a language model, based on their types and relevance to clinical
significance. Our evaluations demonstrate that RaTEScore aligns more closely
with human preference than existing metrics, validated both on established
public benchmarks and our newly proposed RaTE-Eval benchmark.Summary
AI-Generated Summary