ChatPaper.aiChatPaper

SilVar-Med: Un modelo de lenguaje visual impulsado por voz para la detección explicable de anomalías en imágenes médicas

SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging

April 14, 2025
Autores: Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy
cs.AI

Resumen

Los Modelos de Lenguaje Visual Médico han demostrado un gran potencial en diversas aplicaciones sanitarias, incluyendo la generación de descripciones de imágenes médicas y la asistencia diagnóstica. Sin embargo, la mayoría de los modelos existentes dependen de instrucciones basadas en texto, lo que limita su usabilidad en entornos clínicos del mundo real, especialmente en escenarios como cirugías, donde la interacción basada en texto suele ser poco práctica para los médicos. Además, los modelos actuales de análisis de imágenes médicas generalmente carecen de un razonamiento exhaustivo detrás de sus predicciones, lo que reduce su fiabilidad para la toma de decisiones clínicas. Dado que los errores en el diagnóstico médico pueden tener consecuencias que cambian la vida, existe una necesidad crítica de asistencia médica interpretable y racional. Para abordar estos desafíos, presentamos SilVar-Med, un modelo de lenguaje visual médico impulsado por voz de extremo a extremo, un asistente de imágenes médicas multimodal que integra la interacción por voz con modelos de lenguaje visual, pionero en la tarea de comunicación basada en voz para el análisis de imágenes médicas. Además, nos centramos en la interpretación del razonamiento detrás de cada predicción de anomalías médicas con un conjunto de datos de razonamiento propuesto. A través de experimentos exhaustivos, demostramos un estudio de prueba de concepto para la interpretación de imágenes médicas basada en razonamiento con interacción por voz de extremo a extremo. Creemos que este trabajo avanzará el campo de la IA médica al fomentar sistemas de apoyo al diagnóstico más transparentes, interactivos y clínicamente viables. Nuestro código y conjunto de datos están disponibles públicamente en SilVar-Med.
English
Medical Visual Language Models have shown great potential in various healthcare applications, including medical image captioning and diagnostic assistance. However, most existing models rely on text-based instructions, limiting their usability in real-world clinical environments especially in scenarios such as surgery, text-based interaction is often impractical for physicians. In addition, current medical image analysis models typically lack comprehensive reasoning behind their predictions, which reduces their reliability for clinical decision-making. Given that medical diagnosis errors can have life-changing consequences, there is a critical need for interpretable and rational medical assistance. To address these challenges, we introduce an end-to-end speech-driven medical VLM, SilVar-Med, a multimodal medical image assistant that integrates speech interaction with VLMs, pioneering the task of voice-based communication for medical image analysis. In addition, we focus on the interpretation of the reasoning behind each prediction of medical abnormalities with a proposed reasoning dataset. Through extensive experiments, we demonstrate a proof-of-concept study for reasoning-driven medical image interpretation with end-to-end speech interaction. We believe this work will advance the field of medical AI by fostering more transparent, interactive, and clinically viable diagnostic support systems. Our code and dataset are publicly available at SiVar-Med.

Summary

AI-Generated Summary

PDF22April 22, 2025