SilVar-Med: Un Modello Linguistico Visivo Guidato dal Parlato per il Rilevamento Spiegabile di Anomalie nelle Immagini Mediche

Abstract

I modelli di linguaggio visivo medico hanno dimostrato un grande potenziale in varie applicazioni sanitarie, tra cui la descrizione di immagini mediche e l'assistenza diagnostica. Tuttavia, la maggior parte dei modelli esistenti si basa su istruzioni basate su testo, limitando la loro usabilità in ambienti clinici reali, specialmente in scenari come la chirurgia, dove l'interazione basata su testo è spesso impraticabile per i medici. Inoltre, gli attuali modelli di analisi delle immagini mediche tipicamente mancano di un ragionamento completo dietro le loro previsioni, il che riduce la loro affidabilità per il processo decisionale clinico. Considerando che gli errori di diagnosi medica possono avere conseguenze che cambiano la vita, c'è un bisogno critico di assistenza medica interpretabile e razionale. Per affrontare queste sfide, introduciamo un modello di linguaggio visivo medico guidato dalla voce end-to-end, SilVar-Med, un assistente per immagini mediche multimodale che integra l'interazione vocale con i modelli di linguaggio visivo, aprendo la strada al compito della comunicazione basata sulla voce per l'analisi delle immagini mediche. Inoltre, ci concentriamo sull'interpretazione del ragionamento dietro ogni previsione di anomalie mediche con un dataset di ragionamento proposto. Attraverso esperimenti estesi, dimostriamo uno studio proof-of-concept per l'interpretazione delle immagini mediche guidata dal ragionamento con interazione vocale end-to-end. Crediamo che questo lavoro farà avanzare il campo dell'IA medica promuovendo sistemi di supporto diagnostico più trasparenti, interattivi e clinicamente praticabili. Il nostro codice e dataset sono pubblicamente disponibili su SiVar-Med.

English

Medical Visual Language Models have shown great potential in various healthcare applications, including medical image captioning and diagnostic assistance. However, most existing models rely on text-based instructions, limiting their usability in real-world clinical environments especially in scenarios such as surgery, text-based interaction is often impractical for physicians. In addition, current medical image analysis models typically lack comprehensive reasoning behind their predictions, which reduces their reliability for clinical decision-making. Given that medical diagnosis errors can have life-changing consequences, there is a critical need for interpretable and rational medical assistance. To address these challenges, we introduce an end-to-end speech-driven medical VLM, SilVar-Med, a multimodal medical image assistant that integrates speech interaction with VLMs, pioneering the task of voice-based communication for medical image analysis. In addition, we focus on the interpretation of the reasoning behind each prediction of medical abnormalities with a proposed reasoning dataset. Through extensive experiments, we demonstrate a proof-of-concept study for reasoning-driven medical image interpretation with end-to-end speech interaction. We believe this work will advance the field of medical AI by fostering more transparent, interactive, and clinically viable diagnostic support systems. Our code and dataset are publicly available at SiVar-Med.

SilVar-Med: Un Modello Linguistico Visivo Guidato dal Parlato per il Rilevamento Spiegabile di Anomalie nelle Immagini Mediche

SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

Abstract

Support