ChatPaper.aiChatPaper

S-Keten: Gestructureerde Visuele Denkketen voor de Geneeskunde

S-Chain: Structured Visual Chain-of-Thought For Medicine

October 26, 2025
Auteurs: Khai Le-Duc, Duy M. H. Nguyen, Phuong T. H. Trinh, Tien-Phat Nguyen, Nghiem T. Diep, An Ngo, Tung Vu, Trinh Vuong, Anh-Tien Nguyen, Mau Nguyen, Van Trung Hoang, Khai-Nguyen Nguyen, Hy Nguyen, Chris Ngo, Anji Liu, Nhat Ho, Anne-Christin Hauschild, Khanh Xuan Nguyen, Thanh Nguyen-Tang, Pengtao Xie, Daniel Sonntag, James Zou, Mathias Niepert, Anh Totti Nguyen
cs.AI

Samenvatting

Betrouwbaar redeneren in medische vision-language modellen (VLM's) vereist niet alleen nauwkeurige voorspellingen, maar ook transparante afstemming tussen tekstuele onderbouwingen en visueel bewijs. Hoewel Chain-of-Thought (CoT)-prompting veelbelovend is gebleken bij medische visuele vraag-antwoordtaken (VQA), bestaat er nog geen grootschalige dataset op expertniveau die stapsgewijs redeneren met precieze visuele verankering vastlegt. Wij introduceren S-Chain, de eerste grootschalige dataset met 12.000 door experts geannoteerde medische afbeeldingen voorzien van begrenzingskaders en gestructureerde visuele CoT (SV-CoT), die visuele regio's expliciet koppelt aan redeneerstappen. De dataset ondersteunt bovendien 16 talen, wat in totaal meer dan 700k VQA-paren oplevert voor brede meertalige toepasbaarheid. Met S-Chain evalueren we state-of-the-art medische VLM's (ExGra-Med, LLaVA-Med) en algemene VLM's (Qwen2.5-VL, InternVL2.5), en tonen aan dat SV-CoT-supervisie de interpreteerbaarheid, verankeringsbetrouwbaarheid en robuustheid significant verbetert. Naast evaluatie onderzoeken we de synergie met retrieval-augmented generation, wat inzicht geeft in hoe domeinkennis en visuele verankering interacteren tijdens autoregressief redeneren. Ten slotte stellen we een nieuw mechanisme voor dat de afstemming tussen visueel bewijs en redeneren versterkt, wat zowel de betrouwbaarheid als efficiëntie verbetert. S-Chain vestigt een nieuwe benchmark voor gegrond medisch redeneren en baant de weg naar meer betrouwbare en uitlegbare medische VLM's.
English
Faithful reasoning in medical vision-language models (VLMs) requires not only accurate predictions but also transparent alignment between textual rationales and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise in medical visual question answering (VQA), no large-scale expert-level dataset has captured stepwise reasoning with precise visual grounding. We introduce S-Chain, the first large-scale dataset of 12,000 expert-annotated medical images with bounding boxes and structured visual CoT (SV-CoT), explicitly linking visual regions to reasoning steps. The dataset further supports 16 languages, totaling over 700k VQA pairs for broad multilingual applicability. Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med, LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that SV-CoT supervision significantly improves interpretability, grounding fidelity, and robustness. Beyond benchmarking, we study its synergy with retrieval-augmented generation, revealing how domain knowledge and visual grounding interact during autoregressive reasoning. Finally, we propose a new mechanism that strengthens the alignment between visual evidence and reasoning, improving both reliability and efficiency. S-Chain establishes a new benchmark for grounded medical reasoning and paves the way toward more trustworthy and explainable medical VLMs.
PDF22December 1, 2025