ChatPaper.aiChatPaper

RaTEScore : Une métrique pour la génération de rapports radiologiques

RaTEScore: A Metric for Radiology Report Generation

June 24, 2024
Auteurs: Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI

Résumé

Cet article présente une nouvelle métrique prenant en compte les entités, appelée Radiological Report (Text) Evaluation (RaTEScore), pour évaluer la qualité des rapports médicaux générés par des modèles d'IA. RaTEScore met l'accent sur des entités médicales cruciales telles que les résultats diagnostiques et les détails anatomiques, tout en étant robuste face aux synonymes médicaux complexes et sensible aux expressions de négation. Sur le plan technique, nous avons développé un ensemble de données complet pour la reconnaissance d'entités nommées (NER) médicales, RaTE-NER, et entraîné un modèle NER spécifiquement à cette fin. Ce modèle permet de décomposer les rapports radiologiques complexes en leurs entités médicales constitutives. La métrique elle-même est dérivée en comparant la similarité des embeddings d'entités, obtenus à partir d'un modèle de langage, en fonction de leurs types et de leur pertinence clinique. Nos évaluations démontrent que RaTEScore s'aligne plus étroitement avec les préférences humaines que les métriques existantes, validées à la fois sur des benchmarks publics établis et sur notre nouveau benchmark proposé, RaTE-Eval.
English
This paper introduces a novel, entity-aware metric, termed as Radiological Report (Text) Evaluation (RaTEScore), to assess the quality of medical reports generated by AI models. RaTEScore emphasizes crucial medical entities such as diagnostic outcomes and anatomical details, and is robust against complex medical synonyms and sensitive to negation expressions. Technically, we developed a comprehensive medical NER dataset, RaTE-NER, and trained an NER model specifically for this purpose. This model enables the decomposition of complex radiological reports into constituent medical entities. The metric itself is derived by comparing the similarity of entity embeddings, obtained from a language model, based on their types and relevance to clinical significance. Our evaluations demonstrate that RaTEScore aligns more closely with human preference than existing metrics, validated both on established public benchmarks and our newly proposed RaTE-Eval benchmark.

Summary

AI-Generated Summary

PDF51November 29, 2024