EchoVLM: Dynamisch Mixture-of-Experts Vision-Language Model voor Universele Echografie-intelligentie
EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence
September 18, 2025
Auteurs: Chaoyin She, Ruifang Lu, Lida Chen, Wei Wang, Qinghua Huang
cs.AI
Samenvatting
Echografie is uitgegroeid tot de voorkeursbeeldvormingsmodaliteit voor vroege kankerscreening vanwege de voordelen van niet-ioniserende straling, lage kosten en real-time beeldvormingsmogelijkheden. Echter, conventionele echodiagnostiek is sterk afhankelijk van de expertise van artsen, wat uitdagingen met zich meebrengt zoals hoge subjectiviteit en lage diagnostische efficiëntie. Vision-language models (VLMs) bieden veelbelovende oplossingen voor dit probleem, maar bestaande algemene modellen tonen beperkte kennis op het gebied van echografische medische taken, met slechte generalisatie in de herkenning van laesies in meerdere organen en lage efficiëntie bij multi-task diagnostiek. Om deze beperkingen aan te pakken, stellen we EchoVLM voor, een vision-language model specifiek ontworpen voor echografische medische beeldvorming. Het model maakt gebruik van een Mixture of Experts (MoE)-architectuur die is getraind op gegevens uit zeven anatomische regio's. Dit ontwerp stelt het model in staat om meerdere taken uit te voeren, waaronder het genereren van echoverslagen, diagnostiek en visuele vraag-antwoordtaken (VQA). De experimentele resultaten toonden aan dat EchoVLM significante verbeteringen behaalde van 10,15 en 4,77 punten in BLEU-1- en ROUGE-1-scores respectievelijk in vergelijking met Qwen2-VL bij de taak van echoverslaggeneratie. Deze bevindingen suggereren dat EchoVLM aanzienlijk potentieel heeft om de diagnostische nauwkeurigheid in echografie te verbeteren, waardoor het een haalbare technische oplossing biedt voor toekomstige klinische toepassingen. Broncode en modelgewichten zijn beschikbaar op https://github.com/Asunatan/EchoVLM.
English
Ultrasound imaging has become the preferred imaging modality for early cancer
screening due to its advantages of non-ionizing radiation, low cost, and
real-time imaging capabilities. However, conventional ultrasound diagnosis
heavily relies on physician expertise, presenting challenges of high
subjectivity and low diagnostic efficiency. Vision-language models (VLMs) offer
promising solutions for this issue, but existing general-purpose models
demonstrate limited knowledge in ultrasound medical tasks, with poor
generalization in multi-organ lesion recognition and low efficiency across
multi-task diagnostics. To address these limitations, we propose EchoVLM, a
vision-language model specifically designed for ultrasound medical imaging. The
model employs a Mixture of Experts (MoE) architecture trained on data spanning
seven anatomical regions. This design enables the model to perform multiple
tasks, including ultrasound report generation, diagnosis and visual
question-answering (VQA). The experimental results demonstrated that EchoVLM
achieved significant improvements of 10.15 and 4.77 points in BLEU-1 scores and
ROUGE-1 scores respectively compared to Qwen2-VL on the ultrasound report
generation task. These findings suggest that EchoVLM has substantial potential
to enhance diagnostic accuracy in ultrasound imaging, thereby providing a
viable technical solution for future clinical applications. Source code and
model weights are available at https://github.com/Asunatan/EchoVLM.