SilVar-Med: Un Modello Linguistico Visivo Guidato dal Parlato per il Rilevamento Spiegabile di Anomalie nelle Immagini Mediche
SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging
April 14, 2025
Autori: Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy
cs.AI
Abstract
I modelli di linguaggio visivo medico hanno dimostrato un grande potenziale in varie applicazioni sanitarie, tra cui la descrizione di immagini mediche e l'assistenza diagnostica. Tuttavia, la maggior parte dei modelli esistenti si basa su istruzioni basate su testo, limitando la loro usabilità in ambienti clinici reali, specialmente in scenari come la chirurgia, dove l'interazione basata su testo è spesso impraticabile per i medici. Inoltre, gli attuali modelli di analisi delle immagini mediche tipicamente mancano di un ragionamento completo dietro le loro previsioni, il che riduce la loro affidabilità per il processo decisionale clinico. Considerando che gli errori di diagnosi medica possono avere conseguenze che cambiano la vita, c'è un bisogno critico di assistenza medica interpretabile e razionale. Per affrontare queste sfide, introduciamo un modello di linguaggio visivo medico guidato dalla voce end-to-end, SilVar-Med, un assistente per immagini mediche multimodale che integra l'interazione vocale con i modelli di linguaggio visivo, aprendo la strada al compito della comunicazione basata sulla voce per l'analisi delle immagini mediche. Inoltre, ci concentriamo sull'interpretazione del ragionamento dietro ogni previsione di anomalie mediche con un dataset di ragionamento proposto. Attraverso esperimenti estesi, dimostriamo uno studio proof-of-concept per l'interpretazione delle immagini mediche guidata dal ragionamento con interazione vocale end-to-end. Crediamo che questo lavoro farà avanzare il campo dell'IA medica promuovendo sistemi di supporto diagnostico più trasparenti, interattivi e clinicamente praticabili. Il nostro codice e dataset sono pubblicamente disponibili su SiVar-Med.
English
Medical Visual Language Models have shown great potential in various
healthcare applications, including medical image captioning and diagnostic
assistance. However, most existing models rely on text-based instructions,
limiting their usability in real-world clinical environments especially in
scenarios such as surgery, text-based interaction is often impractical for
physicians. In addition, current medical image analysis models typically lack
comprehensive reasoning behind their predictions, which reduces their
reliability for clinical decision-making. Given that medical diagnosis errors
can have life-changing consequences, there is a critical need for interpretable
and rational medical assistance. To address these challenges, we introduce an
end-to-end speech-driven medical VLM, SilVar-Med, a multimodal medical image
assistant that integrates speech interaction with VLMs, pioneering the task of
voice-based communication for medical image analysis. In addition, we focus on
the interpretation of the reasoning behind each prediction of medical
abnormalities with a proposed reasoning dataset. Through extensive experiments,
we demonstrate a proof-of-concept study for reasoning-driven medical image
interpretation with end-to-end speech interaction. We believe this work will
advance the field of medical AI by fostering more transparent, interactive, and
clinically viable diagnostic support systems. Our code and dataset are publicly
available at SiVar-Med.Summary
AI-Generated Summary