ChatPaper.aiChatPaper

S-Chain: 의학 분야를 위한 구조화된 시각적 사고 연쇄

S-Chain: Structured Visual Chain-of-Thought For Medicine

October 26, 2025
저자: Khai Le-Duc, Duy M. H. Nguyen, Phuong T. H. Trinh, Tien-Phat Nguyen, Nghiem T. Diep, An Ngo, Tung Vu, Trinh Vuong, Anh-Tien Nguyen, Mau Nguyen, Van Trung Hoang, Khai-Nguyen Nguyen, Hy Nguyen, Chris Ngo, Anji Liu, Nhat Ho, Anne-Christin Hauschild, Khanh Xuan Nguyen, Thanh Nguyen-Tang, Pengtao Xie, Daniel Sonntag, James Zou, Mathias Niepert, Anh Totti Nguyen
cs.AI

초록

의료 시각-언어 모델(VLM)에서 신뢰할 수 있는 추론은 정확한 예측뿐만 아니라 텍스트적 근거와 시각적 증거 간의 투명한 연계를 요구합니다. 체인 오브 썽크(CoT) 프롬프팅이 의료 시각 질의응답(VQA)에서 유망한 성과를 보였으나, 정밀한 시각적 근거를 포함한 단계적 추론을 포착한 대규모 전문가 수준 데이터셋은 존재하지 않았습니다. 본 연구에서는 경계 상자(bounding box)와 구조화된 시각적 CoT(SV-CoT)가 함께 제공되는 12,000개의 전문가 주석 의료 영상으로 구성된 최초의 대규모 데이터셋인 S-Chain을 소개합니다. SV-CoT는 시각 영역과 추론 단계를 명시적으로 연결하며, 해당 데이터셋은 16개 언어를 추가로 지원하여 총 70만 개 이상의 VQA 쌍을 제공해 광범위한 다국어 적용성을 갖췄습니다. S-Chain을 활용하여 최신 의료 VLM(ExGra-Med, LLaVA-Med)과 범용 VLM(Qwen2.5-VL, InternVL2.5)의 성능을 벤치마킹한 결과, SV-CoT 지도 학습이 해석 가능성, 근거 정확도 및 강건성을 크게 향상시킴을 확인했습니다. 벤치마킹을 넘어 검색 증강 생성(RAG)과의 시너지 효과를 분석함으로써 자율 회귀 추론 과정에서 도메인 지식과 시각적 근거가 어떻게 상호작용하는지 규명했습니다. 마지막으로 시각적 증거와 추론 간의 연계를 강화하여 신뢰성과 효율성을 모두 높이는 새로운 메커니즘을 제안합니다. S-Chain은 근거 기반 의료 추론을 위한 새로운 벤치마크를确立(확립)하고, 더욱 신뢰할 수 있고 설명 가능한 의료 VLM으로 나아가는 길을 열었습니다.
English
Faithful reasoning in medical vision-language models (VLMs) requires not only accurate predictions but also transparent alignment between textual rationales and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise in medical visual question answering (VQA), no large-scale expert-level dataset has captured stepwise reasoning with precise visual grounding. We introduce S-Chain, the first large-scale dataset of 12,000 expert-annotated medical images with bounding boxes and structured visual CoT (SV-CoT), explicitly linking visual regions to reasoning steps. The dataset further supports 16 languages, totaling over 700k VQA pairs for broad multilingual applicability. Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med, LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that SV-CoT supervision significantly improves interpretability, grounding fidelity, and robustness. Beyond benchmarking, we study its synergy with retrieval-augmented generation, revealing how domain knowledge and visual grounding interact during autoregressive reasoning. Finally, we propose a new mechanism that strengthens the alignment between visual evidence and reasoning, improving both reliability and efficiency. S-Chain establishes a new benchmark for grounded medical reasoning and paves the way toward more trustworthy and explainable medical VLMs.
PDF22December 1, 2025