ChatPaper.aiChatPaper

SilVar-Med : Un modèle de langage visuel piloté par la parole pour la détection explicable d'anomalies dans l'imagerie médicale

SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

April 14, 2025
Auteurs: Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy
cs.AI

Résumé

Les modèles de langage visuel médicaux ont démontré un grand potentiel dans diverses applications de soins de santé, notamment la génération de légendes pour les images médicales et l'assistance au diagnostic. Cependant, la plupart des modèles existants reposent sur des instructions textuelles, ce qui limite leur utilité dans les environnements cliniques réels, en particulier dans des scénarios tels que la chirurgie, où l'interaction textuelle est souvent peu pratique pour les médecins. De plus, les modèles actuels d'analyse d'images médicales manquent généralement de raisonnements complets derrière leurs prédictions, ce qui réduit leur fiabilité pour la prise de décision clinique. Étant donné que les erreurs de diagnostic médical peuvent avoir des conséquences dramatiques, il est crucial de disposer d'une assistance médicale interprétable et rationnelle. Pour relever ces défis, nous introduisons SilVar-Med, un modèle de langage visuel médical piloté par la parole de bout en bout, un assistant d'images médicales multimodal qui intègre l'interaction vocale avec les modèles de langage visuel, ouvrant la voie à la communication vocale pour l'analyse d'images médicales. En outre, nous nous concentrons sur l'interprétation du raisonnement derrière chaque prédiction d'anomalies médicales avec un jeu de données de raisonnement proposé. À travers des expériences approfondies, nous démontrons une étude de preuve de concept pour l'interprétation d'images médicales basée sur le raisonnement avec une interaction vocale de bout en bout. Nous croyons que ce travail fera progresser le domaine de l'IA médicale en favorisant des systèmes de support diagnostique plus transparents, interactifs et cliniquement viables. Notre code et notre jeu de données sont disponibles publiquement sur SilVar-Med.
English
Medical Visual Language Models have shown great potential in various healthcare applications, including medical image captioning and diagnostic assistance. However, most existing models rely on text-based instructions, limiting their usability in real-world clinical environments especially in scenarios such as surgery, text-based interaction is often impractical for physicians. In addition, current medical image analysis models typically lack comprehensive reasoning behind their predictions, which reduces their reliability for clinical decision-making. Given that medical diagnosis errors can have life-changing consequences, there is a critical need for interpretable and rational medical assistance. To address these challenges, we introduce an end-to-end speech-driven medical VLM, SilVar-Med, a multimodal medical image assistant that integrates speech interaction with VLMs, pioneering the task of voice-based communication for medical image analysis. In addition, we focus on the interpretation of the reasoning behind each prediction of medical abnormalities with a proposed reasoning dataset. Through extensive experiments, we demonstrate a proof-of-concept study for reasoning-driven medical image interpretation with end-to-end speech interaction. We believe this work will advance the field of medical AI by fostering more transparent, interactive, and clinically viable diagnostic support systems. Our code and dataset are publicly available at SiVar-Med.

Summary

AI-Generated Summary

PDF22April 22, 2025