S-Chain: Структурированная визуальная цепочка рассуждений для медицины
S-Chain: Structured Visual Chain-of-Thought For Medicine
October 26, 2025
Авторы: Khai Le-Duc, Duy M. H. Nguyen, Phuong T. H. Trinh, Tien-Phat Nguyen, Nghiem T. Diep, An Ngo, Tung Vu, Trinh Vuong, Anh-Tien Nguyen, Mau Nguyen, Van Trung Hoang, Khai-Nguyen Nguyen, Hy Nguyen, Chris Ngo, Anji Liu, Nhat Ho, Anne-Christin Hauschild, Khanh Xuan Nguyen, Thanh Nguyen-Tang, Pengtao Xie, Daniel Sonntag, James Zou, Mathias Niepert, Anh Totti Nguyen
cs.AI
Аннотация
Достоверное рассуждение в медицинских визуально-языковых моделях (VLM) требует не только точных прогнозов, но и прозрачного соответствия между текстовыми обоснованиями и визуальными свидетельствами. Хотя prompting по методу цепочки мыслей (CoT) показал перспективность в медицинском визуальном вопросе-ответе (VQA), ни один крупномасштабный набор данных экспертного уровня не фиксировал пошаговые рассуждения с точной визуальной привязкой. Мы представляем S-Chain — первый крупномасштабный набор данных, содержащий 12 000 медицинских изображений с экспертными разметками (bounding boxes) и структурированными визуальными цепочками мыслей (SV-CoT), которые явно связывают визуальные области с шагами рассуждений. Набор данных дополнительно поддерживает 16 языков, в сумме предоставляя более 700 тыс. пар «вопрос-ответ» для широкой многозадачной применимости. Используя S-Chain, мы провели сравнительный анализ современных медицинских VLM (ExGra-Med, LLaVA-Med) и универсальных VLM (Qwen2.5-VL, InternVL2.5), показав, что обучение с SV-CoT существенно улучшает интерпретируемость, точность визуальной привязки и устойчивость. Помимо бенчмаркинга, мы изучили синергию метода с генерацией, усиленной поиском, раскрыв, как предметные знания и визуальная привязка взаимодействуют в процессе авторегрессивного рассуждения. Наконец, мы предлагаем новый механизм, усиливающий соответствие между визуальными свидетельствами и рассуждениями, что повышает как надежность, так и эффективность. S-Chain устанавливает новый стандарт для обоснованного медицинского рассуждения и открывает путь к созданию более надежных и объяснимых медицинских VLM.
English
Faithful reasoning in medical vision-language models (VLMs) requires not only
accurate predictions but also transparent alignment between textual rationales
and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise
in medical visual question answering (VQA), no large-scale expert-level dataset
has captured stepwise reasoning with precise visual grounding. We introduce
S-Chain, the first large-scale dataset of 12,000 expert-annotated medical
images with bounding boxes and structured visual CoT (SV-CoT), explicitly
linking visual regions to reasoning steps. The dataset further supports 16
languages, totaling over 700k VQA pairs for broad multilingual applicability.
Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med,
LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that
SV-CoT supervision significantly improves interpretability, grounding fidelity,
and robustness. Beyond benchmarking, we study its synergy with
retrieval-augmented generation, revealing how domain knowledge and visual
grounding interact during autoregressive reasoning. Finally, we propose a new
mechanism that strengthens the alignment between visual evidence and reasoning,
improving both reliability and efficiency. S-Chain establishes a new benchmark
for grounded medical reasoning and paves the way toward more trustworthy and
explainable medical VLMs.