ChatPaper.aiChatPaper

S-Chain:医療における構造化ビジュアル連鎖思考

S-Chain: Structured Visual Chain-of-Thought For Medicine

October 26, 2025
著者: Khai Le-Duc, Duy M. H. Nguyen, Phuong T. H. Trinh, Tien-Phat Nguyen, Nghiem T. Diep, An Ngo, Tung Vu, Trinh Vuong, Anh-Tien Nguyen, Mau Nguyen, Van Trung Hoang, Khai-Nguyen Nguyen, Hy Nguyen, Chris Ngo, Anji Liu, Nhat Ho, Anne-Christin Hauschild, Khanh Xuan Nguyen, Thanh Nguyen-Tang, Pengtao Xie, Daniel Sonntag, James Zou, Mathias Niepert, Anh Totti Nguyen
cs.AI

要旨

医療視覚言語モデル(VLM)における忠実な推論には、正確な予測のみならず、テキストによる理論的根拠と視覚的証拠との間の透明性のある整合性が求められる。チェイン・オブ・ソート(CoT)プロンプティングは医療視覚質問応答(VQA)において有望な成果を示しているが、精密な視覚的接地を伴う段階的推論を捉えた大規模な専門家レベルのデータセットは存在しなかった。我々は、12,000枚の専門家注釈付き医療画像と境界ボックス、構造化視覚CoT(SV-CoT)から成る初の大規模データセットであるS-Chainを提案する。これは視覚領域と推論ステップを明示的に結びつけるものである。本データセットはさらに16言語をサポートし、総計70万以上のVQAペアを有し、広範な多言語適用性を実現している。S-Chainを用いて、最先端の医療VLM(ExGra-Med、LLaVA-Med)および汎用VLM(Qwen2.5-VL、InternVL2.5)をベンチマークした結果、SV-CoTによる監督が解釈可能性、接地忠実度、ロバスト性を大幅に向上させることが示された。ベンチマークを超えて、検索拡張生成との相乗効果を検討し、自己回帰推論における領域知識と視覚的接地の相互作用を明らかにする。最後に、視覚的証拠と推論の整合性を強化し、信頼性と効率性の両方を改善する新たなメカニズムを提案する。S-Chainは接地された医療推論の新たなベンチマークを確立し、より信頼性が高く説明可能な医療VLMへの道を開くものである。
English
Faithful reasoning in medical vision-language models (VLMs) requires not only accurate predictions but also transparent alignment between textual rationales and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise in medical visual question answering (VQA), no large-scale expert-level dataset has captured stepwise reasoning with precise visual grounding. We introduce S-Chain, the first large-scale dataset of 12,000 expert-annotated medical images with bounding boxes and structured visual CoT (SV-CoT), explicitly linking visual regions to reasoning steps. The dataset further supports 16 languages, totaling over 700k VQA pairs for broad multilingual applicability. Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med, LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that SV-CoT supervision significantly improves interpretability, grounding fidelity, and robustness. Beyond benchmarking, we study its synergy with retrieval-augmented generation, revealing how domain knowledge and visual grounding interact during autoregressive reasoning. Finally, we propose a new mechanism that strengthens the alignment between visual evidence and reasoning, improving both reliability and efficiency. S-Chain establishes a new benchmark for grounded medical reasoning and paves the way toward more trustworthy and explainable medical VLMs.
PDF22December 1, 2025