EchoVLM : Modèle Vision-Langage à Mélange Dynamique d'Experts pour une Intelligence Universelle en Échographie
EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence
September 18, 2025
papers.authors: Chaoyin She, Ruifang Lu, Lida Chen, Wei Wang, Qinghua Huang
cs.AI
papers.abstract
L'imagerie par ultrasons est devenue la modalité d'imagerie privilégiée pour le dépistage précoce du cancer en raison de ses avantages, notamment l'absence de rayonnement ionisant, son faible coût et ses capacités d'imagerie en temps réel. Cependant, le diagnostic conventionnel par ultrasons repose fortement sur l'expertise des médecins, ce qui pose des défis liés à une subjectivité élevée et à une faible efficacité diagnostique. Les modèles vision-langage (VLMs) offrent des solutions prometteuses à ce problème, mais les modèles généralistes existants montrent une connaissance limitée dans les tâches médicales liées aux ultrasons, avec une généralisation médiocre dans la reconnaissance des lésions multi-organes et une faible efficacité dans les diagnostics multi-tâches. Pour répondre à ces limitations, nous proposons EchoVLM, un modèle vision-langage spécifiquement conçu pour l'imagerie médicale par ultrasons. Le modèle utilise une architecture de Mixture of Experts (MoE) entraînée sur des données couvrant sept régions anatomiques. Cette conception permet au modèle d'exécuter plusieurs tâches, notamment la génération de rapports d'ultrasons, le diagnostic et la réponse visuelle à des questions (VQA). Les résultats expérimentaux ont montré qu'EchoVLM a obtenu des améliorations significatives de 10,15 et 4,77 points respectivement dans les scores BLEU-1 et ROUGE-1 par rapport à Qwen2-VL dans la tâche de génération de rapports d'ultrasons. Ces résultats suggèrent qu'EchoVLM possède un potentiel substantiel pour améliorer la précision diagnostique en imagerie par ultrasons, offrant ainsi une solution technique viable pour les futures applications cliniques. Le code source et les poids du modèle sont disponibles à l'adresse https://github.com/Asunatan/EchoVLM.
English
Ultrasound imaging has become the preferred imaging modality for early cancer
screening due to its advantages of non-ionizing radiation, low cost, and
real-time imaging capabilities. However, conventional ultrasound diagnosis
heavily relies on physician expertise, presenting challenges of high
subjectivity and low diagnostic efficiency. Vision-language models (VLMs) offer
promising solutions for this issue, but existing general-purpose models
demonstrate limited knowledge in ultrasound medical tasks, with poor
generalization in multi-organ lesion recognition and low efficiency across
multi-task diagnostics. To address these limitations, we propose EchoVLM, a
vision-language model specifically designed for ultrasound medical imaging. The
model employs a Mixture of Experts (MoE) architecture trained on data spanning
seven anatomical regions. This design enables the model to perform multiple
tasks, including ultrasound report generation, diagnosis and visual
question-answering (VQA). The experimental results demonstrated that EchoVLM
achieved significant improvements of 10.15 and 4.77 points in BLEU-1 scores and
ROUGE-1 scores respectively compared to Qwen2-VL on the ultrasound report
generation task. These findings suggest that EchoVLM has substantial potential
to enhance diagnostic accuracy in ultrasound imaging, thereby providing a
viable technical solution for future clinical applications. Source code and
model weights are available at https://github.com/Asunatan/EchoVLM.