S-Chain: Структурированная визуальная цепочка рассуждений для медицины

Аннотация

Достоверное рассуждение в медицинских визуально-языковых моделях (VLM) требует не только точных прогнозов, но и прозрачного соответствия между текстовыми обоснованиями и визуальными свидетельствами. Хотя prompting по методу цепочки мыслей (CoT) показал перспективность в медицинском визуальном вопросе-ответе (VQA), ни один крупномасштабный набор данных экспертного уровня не фиксировал пошаговые рассуждения с точной визуальной привязкой. Мы представляем S-Chain — первый крупномасштабный набор данных, содержащий 12 000 медицинских изображений с экспертными разметками (bounding boxes) и структурированными визуальными цепочками мыслей (SV-CoT), которые явно связывают визуальные области с шагами рассуждений. Набор данных дополнительно поддерживает 16 языков, в сумме предоставляя более 700 тыс. пар «вопрос-ответ» для широкой многозадачной применимости. Используя S-Chain, мы провели сравнительный анализ современных медицинских VLM (ExGra-Med, LLaVA-Med) и универсальных VLM (Qwen2.5-VL, InternVL2.5), показав, что обучение с SV-CoT существенно улучшает интерпретируемость, точность визуальной привязки и устойчивость. Помимо бенчмаркинга, мы изучили синергию метода с генерацией, усиленной поиском, раскрыв, как предметные знания и визуальная привязка взаимодействуют в процессе авторегрессивного рассуждения. Наконец, мы предлагаем новый механизм, усиливающий соответствие между визуальными свидетельствами и рассуждениями, что повышает как надежность, так и эффективность. S-Chain устанавливает новый стандарт для обоснованного медицинского рассуждения и открывает путь к созданию более надежных и объяснимых медицинских VLM.

English

Faithful reasoning in medical vision-language models (VLMs) requires not only accurate predictions but also transparent alignment between textual rationales and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise in medical visual question answering (VQA), no large-scale expert-level dataset has captured stepwise reasoning with precise visual grounding. We introduce S-Chain, the first large-scale dataset of 12,000 expert-annotated medical images with bounding boxes and structured visual CoT (SV-CoT), explicitly linking visual regions to reasoning steps. The dataset further supports 16 languages, totaling over 700k VQA pairs for broad multilingual applicability. Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med, LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that SV-CoT supervision significantly improves interpretability, grounding fidelity, and robustness. Beyond benchmarking, we study its synergy with retrieval-augmented generation, revealing how domain knowledge and visual grounding interact during autoregressive reasoning. Finally, we propose a new mechanism that strengthens the alignment between visual evidence and reasoning, improving both reliability and efficiency. S-Chain establishes a new benchmark for grounded medical reasoning and paves the way toward more trustworthy and explainable medical VLMs.

S-Chain: Структурированная визуальная цепочка рассуждений для медицины

S-Chain: Structured Visual Chain-of-Thought For Medicine

Аннотация

Support