SilVar-Med: Um Modelo de Linguagem Visual Baseado em Fala para Detecção Explicável de Anormalidades em Imagens Médicas
SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging
April 14, 2025
Autores: Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy
cs.AI
Resumo
Modelos de Linguagem Visual Médica têm demonstrado grande potencial em diversas aplicações de saúde, incluindo legendagem de imagens médicas e assistência diagnóstica. No entanto, a maioria dos modelos existentes depende de instruções baseadas em texto, limitando sua usabilidade em ambientes clínicos do mundo real, especialmente em cenários como cirurgias, onde a interação baseada em texto muitas vezes é impraticável para os médicos. Além disso, os atuais modelos de análise de imagens médicas geralmente carecem de um raciocínio abrangente por trás de suas previsões, o que reduz sua confiabilidade para a tomada de decisões clínicas. Dado que erros de diagnóstico médico podem ter consequências que mudam vidas, há uma necessidade crítica de assistência médica interpretável e racional. Para enfrentar esses desafios, introduzimos um Modelo de Linguagem Visual Médica (VLM) orientado por fala de ponta a ponta, o SilVar-Med, um assistente de imagens médicas multimodal que integra interação por fala com VLMs, pioneiro na tarefa de comunicação baseada em voz para análise de imagens médicas. Além disso, focamos na interpretação do raciocínio por trás de cada previsão de anormalidades médicas com um conjunto de dados de raciocínio proposto. Por meio de extensos experimentos, demonstramos um estudo de prova de conceito para interpretação de imagens médicas orientada por raciocínio com interação por fala de ponta a ponta. Acreditamos que este trabalho avançará o campo da IA médica ao promover sistemas de suporte diagnóstico mais transparentes, interativos e clinicamente viáveis. Nosso código e conjunto de dados estão publicamente disponíveis no SiVar-Med.
English
Medical Visual Language Models have shown great potential in various
healthcare applications, including medical image captioning and diagnostic
assistance. However, most existing models rely on text-based instructions,
limiting their usability in real-world clinical environments especially in
scenarios such as surgery, text-based interaction is often impractical for
physicians. In addition, current medical image analysis models typically lack
comprehensive reasoning behind their predictions, which reduces their
reliability for clinical decision-making. Given that medical diagnosis errors
can have life-changing consequences, there is a critical need for interpretable
and rational medical assistance. To address these challenges, we introduce an
end-to-end speech-driven medical VLM, SilVar-Med, a multimodal medical image
assistant that integrates speech interaction with VLMs, pioneering the task of
voice-based communication for medical image analysis. In addition, we focus on
the interpretation of the reasoning behind each prediction of medical
abnormalities with a proposed reasoning dataset. Through extensive experiments,
we demonstrate a proof-of-concept study for reasoning-driven medical image
interpretation with end-to-end speech interaction. We believe this work will
advance the field of medical AI by fostering more transparent, interactive, and
clinically viable diagnostic support systems. Our code and dataset are publicly
available at SiVar-Med.Summary
AI-Generated Summary