SilVar-Med: Ein sprachgesteuertes visuelles Sprachmodell zur erklärbaren Erkennung von Anomalien in der medizinischen Bildgebung
SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging
April 14, 2025
Autoren: Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy
cs.AI
Zusammenfassung
Medizinische Visuelle Sprachmodelle haben großes Potenzial in verschiedenen Gesundheitsanwendungen gezeigt, einschließlich der Beschreibung medizinischer Bilder und der Unterstützung bei der Diagnose. Die meisten bestehenden Modelle stützen sich jedoch auf textbasierte Anweisungen, was ihre Nutzbarkeit in realen klinischen Umgebungen einschränkt, insbesondere in Szenarien wie Operationen, in denen textbasierte Interaktion für Ärzte oft unpraktisch ist. Darüber hinaus fehlt es aktuellen Modellen zur medizinischen Bildanalyse in der Regel an umfassender Begründung für ihre Vorhersagen, was ihre Zuverlässigkeit für klinische Entscheidungen verringert. Da Diagnosefehler im medizinischen Bereich lebensverändernde Folgen haben können, besteht ein dringender Bedarf an interpretierbarer und rationaler medizinischer Unterstützung. Um diese Herausforderungen zu bewältigen, stellen wir ein end-to-end sprachgesteuertes medizinisches VLM vor, SilVar-Med, einen multimodalen medizinischen Bildassistenten, der Sprachinteraktion mit VLMs integriert und die Aufgabe der sprachbasierten Kommunikation für die medizinische Bildanalyse vorantreibt. Zudem konzentrieren wir uns auf die Interpretation der Begründung hinter jeder Vorhersage medizinischer Anomalien mit einem vorgeschlagenen Begründungsdatensatz. Durch umfangreiche Experimente demonstrieren wir eine Machbarkeitsstudie für begründungsgestützte medizinische Bildinterpretation mit end-to-end Sprachinteraktion. Wir glauben, dass diese Arbeit das Feld der medizinischen KI voranbringen wird, indem sie transparentere, interaktivere und klinisch praktikablere Diagnoseunterstützungssysteme fördert. Unser Code und Datensatz sind öffentlich unter SiVar-Med verfügbar.
English
Medical Visual Language Models have shown great potential in various
healthcare applications, including medical image captioning and diagnostic
assistance. However, most existing models rely on text-based instructions,
limiting their usability in real-world clinical environments especially in
scenarios such as surgery, text-based interaction is often impractical for
physicians. In addition, current medical image analysis models typically lack
comprehensive reasoning behind their predictions, which reduces their
reliability for clinical decision-making. Given that medical diagnosis errors
can have life-changing consequences, there is a critical need for interpretable
and rational medical assistance. To address these challenges, we introduce an
end-to-end speech-driven medical VLM, SilVar-Med, a multimodal medical image
assistant that integrates speech interaction with VLMs, pioneering the task of
voice-based communication for medical image analysis. In addition, we focus on
the interpretation of the reasoning behind each prediction of medical
abnormalities with a proposed reasoning dataset. Through extensive experiments,
we demonstrate a proof-of-concept study for reasoning-driven medical image
interpretation with end-to-end speech interaction. We believe this work will
advance the field of medical AI by fostering more transparent, interactive, and
clinically viable diagnostic support systems. Our code and dataset are publicly
available at SiVar-Med.Summary
AI-Generated Summary