ChatPaper.aiChatPaper

S-Chain: Cadeia Visual Estruturada de Raciocínio para a Medicina

S-Chain: Structured Visual Chain-of-Thought For Medicine

October 26, 2025
Autores: Khai Le-Duc, Duy M. H. Nguyen, Phuong T. H. Trinh, Tien-Phat Nguyen, Nghiem T. Diep, An Ngo, Tung Vu, Trinh Vuong, Anh-Tien Nguyen, Mau Nguyen, Van Trung Hoang, Khai-Nguyen Nguyen, Hy Nguyen, Chris Ngo, Anji Liu, Nhat Ho, Anne-Christin Hauschild, Khanh Xuan Nguyen, Thanh Nguyen-Tang, Pengtao Xie, Daniel Sonntag, James Zou, Mathias Niepert, Anh Totti Nguyen
cs.AI

Resumo

O raciocínio fidedigno em modelos visiolinguísticos (VLMs) médicos exige não apenas previsões precisas, mas também um alinhamento transparente entre as justificativas textuais e as evidências visuais. Embora o *prompting* de Cadeia de Pensamento (CoT) tenha mostrado potencial na resposta a perguntas visuais (VQA) médicas, nenhum conjunto de dados em larga escala e de nível especialista capturou o raciocínio passo a passo com fundamentação visual precisa. Apresentamos o S-Chain, o primeiro conjunto de dados em larga escala com 12.000 imagens médicas anotadas por especialistas, contendo caixas delimitadoras e uma CoT Visual Estruturada (SV-CoT), que liga explicitamente regiões visuais a etapas de raciocínio. O conjunto de dados suporta ainda 16 idiomas, totalizando mais de 700 mil pares VQA para uma ampla aplicabilidade multilingue. Utilizando o S-Chain, avaliamos VLMs médicos state-of-the-art (ExGra-Med, LLaVA-Med) e VLMs de propósito geral (Qwen2.5-VL, InternVL2.5), demonstrando que a supervisão com SV-CoT melhora significativamente a interpretabilidade, a fidelidade da fundamentação e a robustez. Para além da avaliação comparativa, estudamos a sua sinergia com a geração aumentada por recuperação de informação, revelando como o conhecimento de domínio e a fundamentação visual interagem durante o raciocínio autoregressivo. Por fim, propomos um novo mecanismo que reforça o alinhamento entre a evidência visual e o raciocínio, melhorando tanto a confiabilidade como a eficiência. O S-Chain estabelece um novo referencial para o raciocínio médico fundamentado e abre caminho para VLMs médicos mais confiáveis e explicáveis.
English
Faithful reasoning in medical vision-language models (VLMs) requires not only accurate predictions but also transparent alignment between textual rationales and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise in medical visual question answering (VQA), no large-scale expert-level dataset has captured stepwise reasoning with precise visual grounding. We introduce S-Chain, the first large-scale dataset of 12,000 expert-annotated medical images with bounding boxes and structured visual CoT (SV-CoT), explicitly linking visual regions to reasoning steps. The dataset further supports 16 languages, totaling over 700k VQA pairs for broad multilingual applicability. Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med, LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that SV-CoT supervision significantly improves interpretability, grounding fidelity, and robustness. Beyond benchmarking, we study its synergy with retrieval-augmented generation, revealing how domain knowledge and visual grounding interact during autoregressive reasoning. Finally, we propose a new mechanism that strengthens the alignment between visual evidence and reasoning, improving both reliability and efficiency. S-Chain establishes a new benchmark for grounded medical reasoning and paves the way toward more trustworthy and explainable medical VLMs.
PDF32February 7, 2026