EchoVLM: Modelo Dinâmico de Mistura de Especialistas Visão-Linguagem para Inteligência Universal em Ultrassom
EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence
September 18, 2025
Autores: Chaoyin She, Ruifang Lu, Lida Chen, Wei Wang, Qinghua Huang
cs.AI
Resumo
A imagem por ultrassom tornou-se a modalidade de imagem preferida para o rastreamento precoce do câncer devido às suas vantagens de radiação não ionizante, baixo custo e capacidade de imagem em tempo real. No entanto, o diagnóstico convencional por ultrassom depende fortemente da expertise do médico, apresentando desafios de alta subjetividade e baixa eficiência diagnóstica. Os modelos de visão e linguagem (VLMs) oferecem soluções promissoras para esse problema, mas os modelos de propósito geral existentes demonstram conhecimento limitado em tarefas médicas de ultrassom, com baixa generalização no reconhecimento de lesões em múltiplos órgãos e eficiência reduzida em diagnósticos multitarefa. Para abordar essas limitações, propomos o EchoVLM, um modelo de visão e linguagem especificamente projetado para imagens médicas de ultrassom. O modelo emprega uma arquitetura de Mistura de Especialistas (MoE) treinada em dados que abrangem sete regiões anatômicas. Esse design permite que o modelo execute múltiplas tarefas, incluindo geração de relatórios de ultrassom, diagnóstico e resposta a perguntas visuais (VQA). Os resultados experimentais demonstraram que o EchoVLM alcançou melhorias significativas de 10,15 e 4,77 pontos nas pontuações BLEU-1 e ROUGE-1, respectivamente, em comparação com o Qwen2-VL na tarefa de geração de relatórios de ultrassom. Esses achados sugerem que o EchoVLM tem um potencial substancial para aumentar a precisão diagnóstica em imagens de ultrassom, fornecendo assim uma solução técnica viável para futuras aplicações clínicas. O código-fonte e os pesos do modelo estão disponíveis em https://github.com/Asunatan/EchoVLM.
English
Ultrasound imaging has become the preferred imaging modality for early cancer
screening due to its advantages of non-ionizing radiation, low cost, and
real-time imaging capabilities. However, conventional ultrasound diagnosis
heavily relies on physician expertise, presenting challenges of high
subjectivity and low diagnostic efficiency. Vision-language models (VLMs) offer
promising solutions for this issue, but existing general-purpose models
demonstrate limited knowledge in ultrasound medical tasks, with poor
generalization in multi-organ lesion recognition and low efficiency across
multi-task diagnostics. To address these limitations, we propose EchoVLM, a
vision-language model specifically designed for ultrasound medical imaging. The
model employs a Mixture of Experts (MoE) architecture trained on data spanning
seven anatomical regions. This design enables the model to perform multiple
tasks, including ultrasound report generation, diagnosis and visual
question-answering (VQA). The experimental results demonstrated that EchoVLM
achieved significant improvements of 10.15 and 4.77 points in BLEU-1 scores and
ROUGE-1 scores respectively compared to Qwen2-VL on the ultrasound report
generation task. These findings suggest that EchoVLM has substantial potential
to enhance diagnostic accuracy in ultrasound imaging, thereby providing a
viable technical solution for future clinical applications. Source code and
model weights are available at https://github.com/Asunatan/EchoVLM.