EchoPrime: Um Modelo de Visão Linguagem Informado por Múltiplas Visualizações de Vídeo para Interpretação Abrangente de Ecocardiografia

Resumo

A ecocardiografia é a modalidade de imagem cardíaca mais amplamente utilizada, capturando dados de vídeo por ultrassom para avaliar a estrutura e função cardíacas. A inteligência artificial (IA) na ecocardiografia tem o potencial de otimizar tarefas manuais e melhorar a reprodutibilidade e precisão. No entanto, a maioria dos modelos de IA em ecocardiografia são sistemas de única visão e tarefa única que não sintetizam informações complementares de múltiplas visões capturadas durante um exame completo, resultando em desempenho e escopo de aplicação limitados. Para resolver esse problema, apresentamos o EchoPrime, um modelo de base visão-linguagem baseado em vídeo, multi-visão e informado por visão, treinado em mais de 12 milhões de pares vídeo-relatório. O EchoPrime utiliza aprendizado contrastivo para treinar um modelo de incorporação unificado para todas as visões padrão em um estudo ecocardiográfico abrangente, com representação de doenças e diagnósticos raros e comuns. Em seguida, o EchoPrime utiliza classificação de visão e um modelo de atenção anatômica informado por visão para ponderar interpretações específicas de vídeo que mapeiam com precisão a relação entre as visões ecocardiográficas e as estruturas anatômicas. Com interpretação aumentada por recuperação, o EchoPrime integra informações de todos os vídeos ecocardiográficos em um estudo abrangente e realiza uma interpretação clínica ecocardiográfica holística abrangente. Em conjuntos de dados de dois sistemas de saúde independentes, o EchoPrime alcança desempenho de ponta em 23 benchmarks diversos de forma e função cardíacas, superando o desempenho de abordagens específicas de tarefa e modelos de base anteriores. Após avaliação clínica rigorosa, o EchoPrime pode auxiliar os médicos na avaliação preliminar automatizada da ecocardiografia abrangente.

English

Echocardiography is the most widely used cardiac imaging modality, capturing ultrasound video data to assess cardiac structure and function. Artificial intelligence (AI) in echocardiography has the potential to streamline manual tasks and improve reproducibility and precision. However, most echocardiography AI models are single-view, single-task systems that do not synthesize complementary information from multiple views captured during a full exam, and thus lead to limited performance and scope of applications. To address this problem, we introduce EchoPrime, a multi-view, view-informed, video-based vision-language foundation model trained on over 12 million video-report pairs. EchoPrime uses contrastive learning to train a unified embedding model for all standard views in a comprehensive echocardiogram study with representation of both rare and common diseases and diagnoses. EchoPrime then utilizes view-classification and a view-informed anatomic attention model to weight video-specific interpretations that accurately maps the relationship between echocardiographic views and anatomical structures. With retrieval-augmented interpretation, EchoPrime integrates information from all echocardiogram videos in a comprehensive study and performs holistic comprehensive clinical echocardiography interpretation. In datasets from two independent healthcare systems, EchoPrime achieves state-of-the art performance on 23 diverse benchmarks of cardiac form and function, surpassing the performance of both task-specific approaches and prior foundation models. Following rigorous clinical evaluation, EchoPrime can assist physicians in the automated preliminary assessment of comprehensive echocardiography.

EchoPrime: Um Modelo de Visão Linguagem Informado por Múltiplas Visualizações de Vídeo para Interpretação Abrangente de Ecocardiografia

EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation

Resumo

Support