S-Cadena: Cadena de Razonamiento Visual Estructurada para Medicina
S-Chain: Structured Visual Chain-of-Thought For Medicine
October 26, 2025
Autores: Khai Le-Duc, Duy M. H. Nguyen, Phuong T. H. Trinh, Tien-Phat Nguyen, Nghiem T. Diep, An Ngo, Tung Vu, Trinh Vuong, Anh-Tien Nguyen, Mau Nguyen, Van Trung Hoang, Khai-Nguyen Nguyen, Hy Nguyen, Chris Ngo, Anji Liu, Nhat Ho, Anne-Christin Hauschild, Khanh Xuan Nguyen, Thanh Nguyen-Tang, Pengtao Xie, Daniel Sonntag, James Zou, Mathias Niepert, Anh Totti Nguyen
cs.AI
Resumen
El razonamiento fiable en modelos visión-lenguaje (VLM) médicos requiere no solo predicciones precisas, sino también una alineación transparente entre las justificaciones textuales y la evidencia visual. Si bien el prompting de Cadena de Pensamiento (CoT) ha mostrado potencial en la respuesta a preguntas visuales (VQA) médicas, no existía un conjunto de datos a gran escala de nivel experto que capturara el razonamiento paso a paso con una localización visual precisa. Presentamos S-Chain, el primer conjunto de datos a gran escala de 12.000 imágenes médicas anotadas por expertos con cuadros delimitadores y CoT visual estructurado (SV-CoT), que vincula explícitamente regiones visuales con pasos de razonamiento. El conjunto de datos admite además 16 idiomas, totalizando más de 700k pares VQA para una amplia aplicabilidad multilingüe. Utilizando S-Chain, evaluamos VLM médicos de última generación (ExGra-Med, LLaVA-Med) y VLM de propósito general (Qwen2.5-VL, InternVL2.5), demostrando que la supervisión SV-CoT mejora significativamente la interpretabilidad, la fidelidad de la localización y la robustez. Más allá de la evaluación, estudiamos su sinergia con la generación aumentada por recuperación, revelando cómo interactúan el conocimiento del dominio y la localización visual durante el razonamiento autoregresivo. Finalmente, proponemos un nuevo mecanismo que fortalece la alineación entre la evidencia visual y el razonamiento, mejorando tanto la fiabilidad como la eficiencia. S-Chian establece un nuevo punto de referencia para el razonamiento médico fundamentado y allana el camino hacia VLM médicos más confiables y explicables.
English
Faithful reasoning in medical vision-language models (VLMs) requires not only
accurate predictions but also transparent alignment between textual rationales
and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise
in medical visual question answering (VQA), no large-scale expert-level dataset
has captured stepwise reasoning with precise visual grounding. We introduce
S-Chain, the first large-scale dataset of 12,000 expert-annotated medical
images with bounding boxes and structured visual CoT (SV-CoT), explicitly
linking visual regions to reasoning steps. The dataset further supports 16
languages, totaling over 700k VQA pairs for broad multilingual applicability.
Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med,
LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that
SV-CoT supervision significantly improves interpretability, grounding fidelity,
and robustness. Beyond benchmarking, we study its synergy with
retrieval-augmented generation, revealing how domain knowledge and visual
grounding interact during autoregressive reasoning. Finally, we propose a new
mechanism that strengthens the alignment between visual evidence and reasoning,
improving both reliability and efficiency. S-Chain establishes a new benchmark
for grounded medical reasoning and paves the way toward more trustworthy and
explainable medical VLMs.