ChatPaper.aiChatPaper

EchoVLM: Dynamisches Mixture-of-Experts Vision-Language-Modell für universelle Ultraschall-Intelligenz

EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence

September 18, 2025
papers.authors: Chaoyin She, Ruifang Lu, Lida Chen, Wei Wang, Qinghua Huang
cs.AI

papers.abstract

Die Ultraschallbildgebung hat sich aufgrund ihrer Vorteile wie der Verwendung von nicht-ionisierender Strahlung, niedrigen Kosten und Echtzeit-Bildgebung als bevorzugte Bildgebungsmethode für das frühe Krebs-Screening etabliert. Allerdings stützt sich die konventionelle Ultraschalldiagnostik stark auf die Expertise des Arztes, was Herausforderungen wie hohe Subjektivität und geringe diagnostische Effizienz mit sich bringt. Vision-Sprach-Modelle (VLMs) bieten vielversprechende Lösungen für dieses Problem, doch bestehende allgemeine Modelle zeigen begrenztes Wissen in Bezug auf ultraschallmedizinische Aufgaben, mit schlechter Generalisierung bei der Erkennung von Läsionen in multiplen Organen und geringer Effizienz in der Multi-Task-Diagnostik. Um diese Einschränkungen zu überwinden, schlagen wir EchoVLM vor, ein speziell für die Ultraschallbildgebung entwickeltes Vision-Sprach-Modell. Das Modell verwendet eine Mixture of Experts (MoE)-Architektur, die mit Daten aus sieben anatomischen Regionen trainiert wurde. Dieser Ansatz ermöglicht es dem Modell, mehrere Aufgaben zu bewältigen, einschließlich der Generierung von Ultraschallberichten, Diagnosen und visuellen Frage-Antwort-Aufgaben (VQA). Die experimentellen Ergebnisse zeigten, dass EchoVLM im Vergleich zu Qwen2-VL bei der Aufgabe der Ultraschallberichtsgenerierung signifikante Verbesserungen von 10,15 und 4,77 Punkten in den BLEU-1- und ROUGE-1-Scores erzielte. Diese Ergebnisse deuten darauf hin, dass EchoVLM ein erhebliches Potenzial besitzt, die diagnostische Genauigkeit in der Ultraschallbildgebung zu verbessern und somit eine praktikable technische Lösung für zukünftige klinische Anwendungen bietet. Der Quellcode und die Modellgewichte sind unter https://github.com/Asunatan/EchoVLM verfügbar.
English
Ultrasound imaging has become the preferred imaging modality for early cancer screening due to its advantages of non-ionizing radiation, low cost, and real-time imaging capabilities. However, conventional ultrasound diagnosis heavily relies on physician expertise, presenting challenges of high subjectivity and low diagnostic efficiency. Vision-language models (VLMs) offer promising solutions for this issue, but existing general-purpose models demonstrate limited knowledge in ultrasound medical tasks, with poor generalization in multi-organ lesion recognition and low efficiency across multi-task diagnostics. To address these limitations, we propose EchoVLM, a vision-language model specifically designed for ultrasound medical imaging. The model employs a Mixture of Experts (MoE) architecture trained on data spanning seven anatomical regions. This design enables the model to perform multiple tasks, including ultrasound report generation, diagnosis and visual question-answering (VQA). The experimental results demonstrated that EchoVLM achieved significant improvements of 10.15 and 4.77 points in BLEU-1 scores and ROUGE-1 scores respectively compared to Qwen2-VL on the ultrasound report generation task. These findings suggest that EchoVLM has substantial potential to enhance diagnostic accuracy in ultrasound imaging, thereby providing a viable technical solution for future clinical applications. Source code and model weights are available at https://github.com/Asunatan/EchoVLM.
PDF32September 19, 2025