RaTEScore: Eine Metrik für die Generierung von Radiologie-Berichten.
RaTEScore: A Metric for Radiology Report Generation
June 24, 2024
Autoren: Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
cs.AI
Zusammenfassung
Dieses Papier stellt eine neuartige, auf Entitäten basierende Metrik namens Radiologischer Bericht (Text) Bewertung (RaTEScore) vor, um die Qualität von medizinischen Berichten, die von KI-Modellen generiert werden, zu bewerten. RaTEScore betont wichtige medizinische Entitäten wie diagnostische Ergebnisse und anatomische Details und ist robust gegen komplexe medizinische Synonyme sowie sensibel für Verneinungsausdrücke. Technisch gesehen haben wir einen umfassenden medizinischen NER-Datensatz, RaTE-NER, entwickelt und ein NER-Modell speziell für diesen Zweck trainiert. Dieses Modell ermöglicht die Zerlegung komplexer radiologischer Berichte in konstituierende medizinische Entitäten. Die Metrik selbst wird abgeleitet, indem die Ähnlichkeit von Entitäts-Einbettungen verglichen wird, die aus einem Sprachmodell basierend auf ihren Typen und ihrer Relevanz für klinische Bedeutung erhalten wurden. Unsere Bewertungen zeigen, dass RaTEScore näher an menschlichen Präferenzen liegt als bestehende Metriken, die sowohl an etablierten öffentlichen Benchmarks als auch an unserem neu vorgeschlagenen RaTE-Eval-Benchmark validiert wurden.
English
This paper introduces a novel, entity-aware metric, termed as Radiological
Report (Text) Evaluation (RaTEScore), to assess the quality of medical reports
generated by AI models. RaTEScore emphasizes crucial medical entities such as
diagnostic outcomes and anatomical details, and is robust against complex
medical synonyms and sensitive to negation expressions. Technically, we
developed a comprehensive medical NER dataset, RaTE-NER, and trained an NER
model specifically for this purpose. This model enables the decomposition of
complex radiological reports into constituent medical entities. The metric
itself is derived by comparing the similarity of entity embeddings, obtained
from a language model, based on their types and relevance to clinical
significance. Our evaluations demonstrate that RaTEScore aligns more closely
with human preference than existing metrics, validated both on established
public benchmarks and our newly proposed RaTE-Eval benchmark.Summary
AI-Generated Summary