EchoVLM: Динамическая модель смеси экспертов для обработки изображений и текста в универсальных ультразвуковых системах
EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence
September 18, 2025
Авторы: Chaoyin She, Ruifang Lu, Lida Chen, Wei Wang, Qinghua Huang
cs.AI
Аннотация
Ультразвуковая визуализация стала предпочтительным методом для раннего скрининга рака благодаря своим преимуществам, таким как отсутствие ионизирующего излучения, низкая стоимость и возможность проведения исследований в реальном времени. Однако традиционная ультразвуковая диагностика в значительной степени зависит от опыта врача, что приводит к высокой субъективности и низкой эффективности диагностики. Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), предлагают перспективные решения для этой проблемы, но существующие универсальные модели демонстрируют ограниченные знания в задачах ультразвуковой медицины, плохо обобщаются при распознавании поражений в различных органах и имеют низкую эффективность в многозадачной диагностике. Для устранения этих ограничений мы предлагаем EchoVLM — модель, объединяющую зрение и язык, специально разработанную для ультразвуковой медицинской визуализации. Модель использует архитектуру Mixture of Experts (MoE), обученную на данных, охватывающих семь анатомических областей. Такая конструкция позволяет модели выполнять множество задач, включая генерацию отчетов по ультразвуковым исследованиям, диагностику и визуальный вопросно-ответный анализ (VQA). Результаты экспериментов показали, что EchoVLM достигла значительного улучшения на 10,15 и 4,77 балла по метрикам BLEU-1 и ROUGE-1 соответственно по сравнению с Qwen2-VL в задаче генерации ультразвуковых отчетов. Эти результаты свидетельствуют о том, что EchoVLM обладает значительным потенциалом для повышения точности диагностики в ультразвуковой визуализации, что делает её перспективным техническим решением для будущих клинических применений. Исходный код и веса модели доступны по адресу https://github.com/Asunatan/EchoVLM.
English
Ultrasound imaging has become the preferred imaging modality for early cancer
screening due to its advantages of non-ionizing radiation, low cost, and
real-time imaging capabilities. However, conventional ultrasound diagnosis
heavily relies on physician expertise, presenting challenges of high
subjectivity and low diagnostic efficiency. Vision-language models (VLMs) offer
promising solutions for this issue, but existing general-purpose models
demonstrate limited knowledge in ultrasound medical tasks, with poor
generalization in multi-organ lesion recognition and low efficiency across
multi-task diagnostics. To address these limitations, we propose EchoVLM, a
vision-language model specifically designed for ultrasound medical imaging. The
model employs a Mixture of Experts (MoE) architecture trained on data spanning
seven anatomical regions. This design enables the model to perform multiple
tasks, including ultrasound report generation, diagnosis and visual
question-answering (VQA). The experimental results demonstrated that EchoVLM
achieved significant improvements of 10.15 and 4.77 points in BLEU-1 scores and
ROUGE-1 scores respectively compared to Qwen2-VL on the ultrasound report
generation task. These findings suggest that EchoVLM has substantial potential
to enhance diagnostic accuracy in ultrasound imaging, thereby providing a
viable technical solution for future clinical applications. Source code and
model weights are available at https://github.com/Asunatan/EchoVLM.