EchoPrime: Ein vision-sprachliches Modell, das durch Multi-Video-Ansichten informiert wird, für die umfassende Interpretation von Echokardiographie.
EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation
October 13, 2024
Autoren: Milos Vukadinovic, Xiu Tang, Neal Yuan, Paul Cheng, Debiao Li, Susan Cheng, Bryan He, David Ouyang
cs.AI
Zusammenfassung
Die Echokardiographie ist die am weitesten verbreitete kardiale Bildgebungsmodalität, die Ultraschall-Videodaten erfasst, um die Struktur und Funktion des Herzens zu beurteilen. Künstliche Intelligenz (KI) in der Echokardiographie hat das Potenzial, manuelle Aufgaben zu optimieren und die Reproduzierbarkeit und Präzision zu verbessern. Die meisten KI-Modelle in der Echokardiographie sind jedoch Einzelbild-Einzel-Aufgaben-Systeme, die keine ergänzenden Informationen aus mehreren während einer vollständigen Untersuchung erfassten Ansichten synthetisieren und daher zu einer begrenzten Leistung und Anwendungsbereich führen. Um dieses Problem zu lösen, stellen wir EchoPrime vor, ein Multi-View-, View-Informed-, Video-basiertes Vision-Language-Grundlagenmodell, das auf über 12 Millionen Video-Berichtspaaren trainiert wurde. EchoPrime verwendet kontrastives Lernen, um ein vereinheitlichtes Einbettungsmodell für alle Standardansichten in einer umfassenden Echokardiogrammstudie mit der Darstellung sowohl seltener als auch häufiger Krankheiten und Diagnosen zu trainieren. EchoPrime nutzt dann die Ansichtsklassifizierung und ein view-informed anatomisches Aufmerksamkeitsmodell, um videobezogene Interpretationen zu gewichten, die die Beziehung zwischen echokardiographischen Ansichten und anatomischen Strukturen genau abbilden. Mit einer abrufgestützten Interpretation integriert EchoPrime Informationen aus allen Echokardiogramm-Videos in einer umfassenden Studie und führt eine ganzheitliche klinische Echokardiographie-Interpretation durch. In Datensätzen aus zwei unabhängigen Gesundheitssystemen erzielt EchoPrime Spitzenleistungen bei 23 verschiedenen Benchmarks für kardiale Form und Funktion und übertrifft die Leistung sowohl von aufgabenspezifischen Ansätzen als auch früheren Grundlagenmodellen. Nach einer rigorosen klinischen Bewertung kann EchoPrime Ärzten bei der automatisierten vorläufigen Bewertung einer umfassenden Echokardiographie unterstützen.
English
Echocardiography is the most widely used cardiac imaging modality, capturing
ultrasound video data to assess cardiac structure and function. Artificial
intelligence (AI) in echocardiography has the potential to streamline manual
tasks and improve reproducibility and precision. However, most echocardiography
AI models are single-view, single-task systems that do not synthesize
complementary information from multiple views captured during a full exam, and
thus lead to limited performance and scope of applications. To address this
problem, we introduce EchoPrime, a multi-view, view-informed, video-based
vision-language foundation model trained on over 12 million video-report pairs.
EchoPrime uses contrastive learning to train a unified embedding model for all
standard views in a comprehensive echocardiogram study with representation of
both rare and common diseases and diagnoses. EchoPrime then utilizes
view-classification and a view-informed anatomic attention model to weight
video-specific interpretations that accurately maps the relationship between
echocardiographic views and anatomical structures. With retrieval-augmented
interpretation, EchoPrime integrates information from all echocardiogram videos
in a comprehensive study and performs holistic comprehensive clinical
echocardiography interpretation. In datasets from two independent healthcare
systems, EchoPrime achieves state-of-the art performance on 23 diverse
benchmarks of cardiac form and function, surpassing the performance of both
task-specific approaches and prior foundation models. Following rigorous
clinical evaluation, EchoPrime can assist physicians in the automated
preliminary assessment of comprehensive echocardiography.Summary
AI-Generated Summary