EchoVLM: Modelo Dinámico de Mezcla de Expertos Visión-Lenguaje para Inteligencia Universal en Ultrasonido
EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence
September 18, 2025
Autores: Chaoyin She, Ruifang Lu, Lida Chen, Wei Wang, Qinghua Huang
cs.AI
Resumen
La imagen por ultrasonido se ha convertido en la modalidad de imagen preferida para la detección temprana del cáncer debido a sus ventajas de radiación no ionizante, bajo costo y capacidades de imagen en tiempo real. Sin embargo, el diagnóstico convencional por ultrasonido depende en gran medida de la experiencia del médico, lo que presenta desafíos de alta subjetividad y baja eficiencia diagnóstica. Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) ofrecen soluciones prometedoras para este problema, pero los modelos de propósito general existentes muestran un conocimiento limitado en tareas médicas de ultrasonido, con una generalización deficiente en el reconocimiento de lesiones en múltiples órganos y baja eficiencia en diagnósticos multitarea. Para abordar estas limitaciones, proponemos EchoVLM, un modelo de visión y lenguaje diseñado específicamente para imágenes médicas de ultrasonido. El modelo emplea una arquitectura de Mezcla de Expertos (MoE, por sus siglas en inglés) entrenada con datos que abarcan siete regiones anatómicas. Este diseño permite al modelo realizar múltiples tareas, incluyendo la generación de informes de ultrasonido, diagnóstico y respuesta visual a preguntas (VQA, por sus siglas en inglés). Los resultados experimentales demostraron que EchoVLM logró mejoras significativas de 10.15 y 4.77 puntos en las puntuaciones BLEU-1 y ROUGE-1, respectivamente, en comparación con Qwen2-VL en la tarea de generación de informes de ultrasonido. Estos hallazgos sugieren que EchoVLM tiene un potencial considerable para mejorar la precisión diagnóstica en imágenes de ultrasonido, proporcionando así una solución técnica viable para futuras aplicaciones clínicas. El código fuente y los pesos del modelo están disponibles en https://github.com/Asunatan/EchoVLM.
English
Ultrasound imaging has become the preferred imaging modality for early cancer
screening due to its advantages of non-ionizing radiation, low cost, and
real-time imaging capabilities. However, conventional ultrasound diagnosis
heavily relies on physician expertise, presenting challenges of high
subjectivity and low diagnostic efficiency. Vision-language models (VLMs) offer
promising solutions for this issue, but existing general-purpose models
demonstrate limited knowledge in ultrasound medical tasks, with poor
generalization in multi-organ lesion recognition and low efficiency across
multi-task diagnostics. To address these limitations, we propose EchoVLM, a
vision-language model specifically designed for ultrasound medical imaging. The
model employs a Mixture of Experts (MoE) architecture trained on data spanning
seven anatomical regions. This design enables the model to perform multiple
tasks, including ultrasound report generation, diagnosis and visual
question-answering (VQA). The experimental results demonstrated that EchoVLM
achieved significant improvements of 10.15 and 4.77 points in BLEU-1 scores and
ROUGE-1 scores respectively compared to Qwen2-VL on the ultrasound report
generation task. These findings suggest that EchoVLM has substantial potential
to enhance diagnostic accuracy in ultrasound imaging, thereby providing a
viable technical solution for future clinical applications. Source code and
model weights are available at https://github.com/Asunatan/EchoVLM.