EchoPrime: Um Modelo de Visão Linguagem Informado por Múltiplas Visualizações de Vídeo para Interpretação Abrangente de Ecocardiografia
EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation
October 13, 2024
Autores: Milos Vukadinovic, Xiu Tang, Neal Yuan, Paul Cheng, Debiao Li, Susan Cheng, Bryan He, David Ouyang
cs.AI
Resumo
A ecocardiografia é a modalidade de imagem cardíaca mais amplamente utilizada, capturando dados de vídeo por ultrassom para avaliar a estrutura e função cardíacas. A inteligência artificial (IA) na ecocardiografia tem o potencial de otimizar tarefas manuais e melhorar a reprodutibilidade e precisão. No entanto, a maioria dos modelos de IA em ecocardiografia são sistemas de única visão e tarefa única que não sintetizam informações complementares de múltiplas visões capturadas durante um exame completo, resultando em desempenho e escopo de aplicação limitados. Para resolver esse problema, apresentamos o EchoPrime, um modelo de base visão-linguagem baseado em vídeo, multi-visão e informado por visão, treinado em mais de 12 milhões de pares vídeo-relatório. O EchoPrime utiliza aprendizado contrastivo para treinar um modelo de incorporação unificado para todas as visões padrão em um estudo ecocardiográfico abrangente, com representação de doenças e diagnósticos raros e comuns. Em seguida, o EchoPrime utiliza classificação de visão e um modelo de atenção anatômica informado por visão para ponderar interpretações específicas de vídeo que mapeiam com precisão a relação entre as visões ecocardiográficas e as estruturas anatômicas. Com interpretação aumentada por recuperação, o EchoPrime integra informações de todos os vídeos ecocardiográficos em um estudo abrangente e realiza uma interpretação clínica ecocardiográfica holística abrangente. Em conjuntos de dados de dois sistemas de saúde independentes, o EchoPrime alcança desempenho de ponta em 23 benchmarks diversos de forma e função cardíacas, superando o desempenho de abordagens específicas de tarefa e modelos de base anteriores. Após avaliação clínica rigorosa, o EchoPrime pode auxiliar os médicos na avaliação preliminar automatizada da ecocardiografia abrangente.
English
Echocardiography is the most widely used cardiac imaging modality, capturing
ultrasound video data to assess cardiac structure and function. Artificial
intelligence (AI) in echocardiography has the potential to streamline manual
tasks and improve reproducibility and precision. However, most echocardiography
AI models are single-view, single-task systems that do not synthesize
complementary information from multiple views captured during a full exam, and
thus lead to limited performance and scope of applications. To address this
problem, we introduce EchoPrime, a multi-view, view-informed, video-based
vision-language foundation model trained on over 12 million video-report pairs.
EchoPrime uses contrastive learning to train a unified embedding model for all
standard views in a comprehensive echocardiogram study with representation of
both rare and common diseases and diagnoses. EchoPrime then utilizes
view-classification and a view-informed anatomic attention model to weight
video-specific interpretations that accurately maps the relationship between
echocardiographic views and anatomical structures. With retrieval-augmented
interpretation, EchoPrime integrates information from all echocardiogram videos
in a comprehensive study and performs holistic comprehensive clinical
echocardiography interpretation. In datasets from two independent healthcare
systems, EchoPrime achieves state-of-the art performance on 23 diverse
benchmarks of cardiac form and function, surpassing the performance of both
task-specific approaches and prior foundation models. Following rigorous
clinical evaluation, EchoPrime can assist physicians in the automated
preliminary assessment of comprehensive echocardiography.Summary
AI-Generated Summary