ChatPaper.aiChatPaper

S-Chain: Strukturierte visuelle Denkkette für die Medizin

S-Chain: Structured Visual Chain-of-Thought For Medicine

October 26, 2025
papers.authors: Khai Le-Duc, Duy M. H. Nguyen, Phuong T. H. Trinh, Tien-Phat Nguyen, Nghiem T. Diep, An Ngo, Tung Vu, Trinh Vuong, Anh-Tien Nguyen, Mau Nguyen, Van Trung Hoang, Khai-Nguyen Nguyen, Hy Nguyen, Chris Ngo, Anji Liu, Nhat Ho, Anne-Christin Hauschild, Khanh Xuan Nguyen, Thanh Nguyen-Tang, Pengtao Xie, Daniel Sonntag, James Zou, Mathias Niepert, Anh Totti Nguyen
cs.AI

papers.abstract

Zuverlässiges Schließen in medizinischen Vision-Language-Modellen (VLMs) erfordert nicht nur präzise Vorhersagen, sondern auch eine transparente Übereinstimmung zwischen textuellen Begründungen und visuellen Beweisen. Während Chain-of-Thought (CoT)-Prompting bei medizinischen Visual Question Answering (VQA) vielversprechende Ergebnisse gezeigt hat, existierte bisher kein umfangreicher, auf Expertenniveau annotierter Datensatz, der schrittweises Schließen mit präziser visueller Verankerung erfasst. Wir stellen S-Chain vor, den ersten groß angelegten Datensatz mit 12.000 von Experten annotierten medizinischen Bildern, die Bounding-Boxen und strukturierte visuelle CoT (SV-CoT) enthalten und visuelle Regionen explizit mit Denkschritten verknüpfen. Der Datensatz unterstützt zudem 16 Sprachen mit insgesamt über 700.000 VQA-Paaren für eine breite mehrsprachige Anwendbarkeit. Unter Verwendung von S-Chain benchmarken wir modernste medizinische VLMs (ExGra-Med, LLaVA-Med) und allgemeine VLMs (Qwen2.5-VL, InternVL2.5) und zeigen, dass SV-CoT-Aufsicht die Interpretierbarkeit, Verankerungstreue und Robustheit signifikant verbessert. Über das Benchmarking hinaus untersuchen wir die Synergie mit retrieval-augmentierter Generierung und zeigen, wie Domänenwissen und visuelle Verankerung während des autoregressiven Schließens interagieren. Abschließend schlagen wir einen neuen Mechanismus vor, der die Ausrichtung zwischen visuellen Beweisen und Schlussfolgerungen stärkt und sowohl Zuverlässigkeit als auch Effizienz verbessert. S-Chain etabliert einen neuen Maßstab für verankertes medizinisches Schließen und ebnet den Weg zu vertrauenswürdigeren und erklärbaren medizinischen VLMs.
English
Faithful reasoning in medical vision-language models (VLMs) requires not only accurate predictions but also transparent alignment between textual rationales and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise in medical visual question answering (VQA), no large-scale expert-level dataset has captured stepwise reasoning with precise visual grounding. We introduce S-Chain, the first large-scale dataset of 12,000 expert-annotated medical images with bounding boxes and structured visual CoT (SV-CoT), explicitly linking visual regions to reasoning steps. The dataset further supports 16 languages, totaling over 700k VQA pairs for broad multilingual applicability. Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med, LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that SV-CoT supervision significantly improves interpretability, grounding fidelity, and robustness. Beyond benchmarking, we study its synergy with retrieval-augmented generation, revealing how domain knowledge and visual grounding interact during autoregressive reasoning. Finally, we propose a new mechanism that strengthens the alignment between visual evidence and reasoning, improving both reliability and efficiency. S-Chain establishes a new benchmark for grounded medical reasoning and paves the way toward more trustworthy and explainable medical VLMs.
PDF22December 1, 2025