ChatPaper.aiChatPaper

S-Chain : Chaîne de Raisonnement Visuelle Structurée pour la Médecine

S-Chain: Structured Visual Chain-of-Thought For Medicine

October 26, 2025
papers.authors: Khai Le-Duc, Duy M. H. Nguyen, Phuong T. H. Trinh, Tien-Phat Nguyen, Nghiem T. Diep, An Ngo, Tung Vu, Trinh Vuong, Anh-Tien Nguyen, Mau Nguyen, Van Trung Hoang, Khai-Nguyen Nguyen, Hy Nguyen, Chris Ngo, Anji Liu, Nhat Ho, Anne-Christin Hauschild, Khanh Xuan Nguyen, Thanh Nguyen-Tang, Pengtao Xie, Daniel Sonntag, James Zou, Mathias Niepert, Anh Totti Nguyen
cs.AI

papers.abstract

Le raisonnement fidèle dans les modèles vision-langage (VLM) médicaux nécessite non seulement des prédictions précises, mais aussi un alignement transparent entre les justifications textuelles et les preuves visuelles. Si l'incitation en chaîne de pensée (CoT) a montré des résultats prometteurs dans les systèmes de questions-réponses visuelles (VQA) médicales, aucun jeu de données expert à grande échelle n'avait jusqu'ici capturé un raisonnement séquentiel avec un ancrage visuel précis. Nous présentons S-Chain, le premier jeu de données à grande échelle comprenant 12 000 images médicales annotées par des experts avec des boîtes englobantes et une CoT visuelle structurée (SV-CoT), reliant explicitement les régions visuelles aux étapes du raisonnement. Le jeu de données prend en outre en charge 16 langues, totalisant plus de 700 000 paires VQA pour une large applicabilité multilingue. En utilisant S-Chain, nous évaluons les VLM médicaux de pointe (ExGra-Med, LLaVA-Med) et les VLM généralistes (Qwen2.5-VL, InternVL2.5), démontrant que la supervision par SV-CoT améliore significativement l'interprétabilité, la fidélité de l'ancrage et la robustesse. Au-delà de l'évaluation comparative, nous étudions sa synergie avec la génération augmentée par retrieval, révélant comment les connaissances du domaine et l'ancrage visuel interagissent lors d'un raisonnement autorégressif. Enfin, nous proposons un nouveau mécanisme qui renforce l'alignement entre les preuves visuelles et le raisonnement, améliorant à la fois la fiabilité et l'efficacité. S-Chain établit une nouvelle référence pour le raisonnement médical ancré et ouvre la voie à des VLM médicaux plus dignes de confiance et explicables.
English
Faithful reasoning in medical vision-language models (VLMs) requires not only accurate predictions but also transparent alignment between textual rationales and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise in medical visual question answering (VQA), no large-scale expert-level dataset has captured stepwise reasoning with precise visual grounding. We introduce S-Chain, the first large-scale dataset of 12,000 expert-annotated medical images with bounding boxes and structured visual CoT (SV-CoT), explicitly linking visual regions to reasoning steps. The dataset further supports 16 languages, totaling over 700k VQA pairs for broad multilingual applicability. Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med, LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that SV-CoT supervision significantly improves interpretability, grounding fidelity, and robustness. Beyond benchmarking, we study its synergy with retrieval-augmented generation, revealing how domain knowledge and visual grounding interact during autoregressive reasoning. Finally, we propose a new mechanism that strengthens the alignment between visual evidence and reasoning, improving both reliability and efficiency. S-Chain establishes a new benchmark for grounded medical reasoning and paves the way toward more trustworthy and explainable medical VLMs.
PDF22December 1, 2025