ChatPaper.aiChatPaper

SilVar-Med: Ein sprachgesteuertes visuelles Sprachmodell zur erklärbaren Erkennung von Anomalien in der medizinischen Bildgebung

SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

April 14, 2025
Autoren: Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy
cs.AI

Zusammenfassung

Medizinische Visuelle Sprachmodelle haben großes Potenzial in verschiedenen Gesundheitsanwendungen gezeigt, einschließlich der Beschreibung medizinischer Bilder und der Unterstützung bei der Diagnose. Die meisten bestehenden Modelle stützen sich jedoch auf textbasierte Anweisungen, was ihre Nutzbarkeit in realen klinischen Umgebungen einschränkt, insbesondere in Szenarien wie Operationen, in denen textbasierte Interaktion für Ärzte oft unpraktisch ist. Darüber hinaus fehlt es aktuellen Modellen zur medizinischen Bildanalyse in der Regel an umfassender Begründung für ihre Vorhersagen, was ihre Zuverlässigkeit für klinische Entscheidungen verringert. Da Diagnosefehler im medizinischen Bereich lebensverändernde Folgen haben können, besteht ein dringender Bedarf an interpretierbarer und rationaler medizinischer Unterstützung. Um diese Herausforderungen zu bewältigen, stellen wir ein end-to-end sprachgesteuertes medizinisches VLM vor, SilVar-Med, einen multimodalen medizinischen Bildassistenten, der Sprachinteraktion mit VLMs integriert und die Aufgabe der sprachbasierten Kommunikation für die medizinische Bildanalyse vorantreibt. Zudem konzentrieren wir uns auf die Interpretation der Begründung hinter jeder Vorhersage medizinischer Anomalien mit einem vorgeschlagenen Begründungsdatensatz. Durch umfangreiche Experimente demonstrieren wir eine Machbarkeitsstudie für begründungsgestützte medizinische Bildinterpretation mit end-to-end Sprachinteraktion. Wir glauben, dass diese Arbeit das Feld der medizinischen KI voranbringen wird, indem sie transparentere, interaktivere und klinisch praktikablere Diagnoseunterstützungssysteme fördert. Unser Code und Datensatz sind öffentlich unter SiVar-Med verfügbar.
English
Medical Visual Language Models have shown great potential in various healthcare applications, including medical image captioning and diagnostic assistance. However, most existing models rely on text-based instructions, limiting their usability in real-world clinical environments especially in scenarios such as surgery, text-based interaction is often impractical for physicians. In addition, current medical image analysis models typically lack comprehensive reasoning behind their predictions, which reduces their reliability for clinical decision-making. Given that medical diagnosis errors can have life-changing consequences, there is a critical need for interpretable and rational medical assistance. To address these challenges, we introduce an end-to-end speech-driven medical VLM, SilVar-Med, a multimodal medical image assistant that integrates speech interaction with VLMs, pioneering the task of voice-based communication for medical image analysis. In addition, we focus on the interpretation of the reasoning behind each prediction of medical abnormalities with a proposed reasoning dataset. Through extensive experiments, we demonstrate a proof-of-concept study for reasoning-driven medical image interpretation with end-to-end speech interaction. We believe this work will advance the field of medical AI by fostering more transparent, interactive, and clinically viable diagnostic support systems. Our code and dataset are publicly available at SiVar-Med.

Summary

AI-Generated Summary

PDF22April 22, 2025