EchoVLM: Modello Dinamico a Miscela di Esperti Visione-Linguaggio per l'Intelligenza Universale negli Ultrasuoni
EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence
September 18, 2025
Autori: Chaoyin She, Ruifang Lu, Lida Chen, Wei Wang, Qinghua Huang
cs.AI
Abstract
L'imaging ecografico è diventato la modalità di imaging preferita per lo screening precoce del cancro grazie ai suoi vantaggi di radiazioni non ionizzanti, basso costo e capacità di imaging in tempo reale. Tuttavia, la diagnosi ecografica convenzionale dipende fortemente dall'esperienza del medico, presentando sfide di elevata soggettività e bassa efficienza diagnostica. I modelli visione-linguaggio (VLMs) offrono soluzioni promettenti per questo problema, ma i modelli generalisti esistenti dimostrano una conoscenza limitata nelle attività mediche ecografiche, con una scarsa generalizzazione nel riconoscimento delle lesioni multi-organo e una bassa efficienza nelle diagnosi multi-task. Per affrontare queste limitazioni, proponiamo EchoVLM, un modello visione-linguaggio specificamente progettato per l'imaging ecografico medico. Il modello utilizza un'architettura Mixture of Experts (MoE) addestrata su dati che coprono sette regioni anatomiche. Questo design consente al modello di eseguire più attività, tra cui la generazione di referti ecografici, la diagnosi e il visual question-answering (VQA). I risultati sperimentali hanno dimostrato che EchoVLM ha ottenuto miglioramenti significativi di 10,15 e 4,77 punti rispettivamente nei punteggi BLEU-1 e ROUGE-1 rispetto a Qwen2-VL nel compito di generazione di referti ecografici. Questi risultati suggeriscono che EchoVLM ha un potenziale sostanziale per migliorare l'accuratezza diagnostica nell'imaging ecografico, fornendo così una soluzione tecnica valida per future applicazioni cliniche. Il codice sorgente e i pesi del modello sono disponibili all'indirizzo https://github.com/Asunatan/EchoVLM.
English
Ultrasound imaging has become the preferred imaging modality for early cancer
screening due to its advantages of non-ionizing radiation, low cost, and
real-time imaging capabilities. However, conventional ultrasound diagnosis
heavily relies on physician expertise, presenting challenges of high
subjectivity and low diagnostic efficiency. Vision-language models (VLMs) offer
promising solutions for this issue, but existing general-purpose models
demonstrate limited knowledge in ultrasound medical tasks, with poor
generalization in multi-organ lesion recognition and low efficiency across
multi-task diagnostics. To address these limitations, we propose EchoVLM, a
vision-language model specifically designed for ultrasound medical imaging. The
model employs a Mixture of Experts (MoE) architecture trained on data spanning
seven anatomical regions. This design enables the model to perform multiple
tasks, including ultrasound report generation, diagnosis and visual
question-answering (VQA). The experimental results demonstrated that EchoVLM
achieved significant improvements of 10.15 and 4.77 points in BLEU-1 scores and
ROUGE-1 scores respectively compared to Qwen2-VL on the ultrasound report
generation task. These findings suggest that EchoVLM has substantial potential
to enhance diagnostic accuracy in ultrasound imaging, thereby providing a
viable technical solution for future clinical applications. Source code and
model weights are available at https://github.com/Asunatan/EchoVLM.