S-Cadena: Cadena de Razonamiento Visual Estructurada para Medicina

Resumen

El razonamiento fiable en modelos visión-lenguaje (VLM) médicos requiere no solo predicciones precisas, sino también una alineación transparente entre las justificaciones textuales y la evidencia visual. Si bien el prompting de Cadena de Pensamiento (CoT) ha mostrado potencial en la respuesta a preguntas visuales (VQA) médicas, no existía un conjunto de datos a gran escala de nivel experto que capturara el razonamiento paso a paso con una localización visual precisa. Presentamos S-Chain, el primer conjunto de datos a gran escala de 12.000 imágenes médicas anotadas por expertos con cuadros delimitadores y CoT visual estructurado (SV-CoT), que vincula explícitamente regiones visuales con pasos de razonamiento. El conjunto de datos admite además 16 idiomas, totalizando más de 700k pares VQA para una amplia aplicabilidad multilingüe. Utilizando S-Chain, evaluamos VLM médicos de última generación (ExGra-Med, LLaVA-Med) y VLM de propósito general (Qwen2.5-VL, InternVL2.5), demostrando que la supervisión SV-CoT mejora significativamente la interpretabilidad, la fidelidad de la localización y la robustez. Más allá de la evaluación, estudiamos su sinergia con la generación aumentada por recuperación, revelando cómo interactúan el conocimiento del dominio y la localización visual durante el razonamiento autoregresivo. Finalmente, proponemos un nuevo mecanismo que fortalece la alineación entre la evidencia visual y el razonamiento, mejorando tanto la fiabilidad como la eficiencia. S-Chian establece un nuevo punto de referencia para el razonamiento médico fundamentado y allana el camino hacia VLM médicos más confiables y explicables.

English

Faithful reasoning in medical vision-language models (VLMs) requires not only accurate predictions but also transparent alignment between textual rationales and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise in medical visual question answering (VQA), no large-scale expert-level dataset has captured stepwise reasoning with precise visual grounding. We introduce S-Chain, the first large-scale dataset of 12,000 expert-annotated medical images with bounding boxes and structured visual CoT (SV-CoT), explicitly linking visual regions to reasoning steps. The dataset further supports 16 languages, totaling over 700k VQA pairs for broad multilingual applicability. Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med, LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that SV-CoT supervision significantly improves interpretability, grounding fidelity, and robustness. Beyond benchmarking, we study its synergy with retrieval-augmented generation, revealing how domain knowledge and visual grounding interact during autoregressive reasoning. Finally, we propose a new mechanism that strengthens the alignment between visual evidence and reasoning, improving both reliability and efficiency. S-Chain establishes a new benchmark for grounded medical reasoning and paves the way toward more trustworthy and explainable medical VLMs.

S-Cadena: Cadena de Razonamiento Visual Estructurada para Medicina

S-Chain: Structured Visual Chain-of-Thought For Medicine

Resumen

Support