S-Chain: Catena di Ragionamento Visivo Strutturata per la Medicina
S-Chain: Structured Visual Chain-of-Thought For Medicine
October 26, 2025
Autori: Khai Le-Duc, Duy M. H. Nguyen, Phuong T. H. Trinh, Tien-Phat Nguyen, Nghiem T. Diep, An Ngo, Tung Vu, Trinh Vuong, Anh-Tien Nguyen, Mau Nguyen, Van Trung Hoang, Khai-Nguyen Nguyen, Hy Nguyen, Chris Ngo, Anji Liu, Nhat Ho, Anne-Christin Hauschild, Khanh Xuan Nguyen, Thanh Nguyen-Tang, Pengtao Xie, Daniel Sonntag, James Zou, Mathias Niepert, Anh Totti Nguyen
cs.AI
Abstract
Il ragionamento affidabile nei modelli visione-linguaggio (VLM) medici richiede non solo previsioni accurate, ma anche un allineamento trasparente tra le motivazioni testuali e l'evidenza visiva. Sebbene il prompting a catena del pensiero (CoT) abbia mostrato potenzialità nel task di risposta a domande visive (VQA) in ambito medico, non esisteva un dataset su larga scala di livello esperto che catturasse un ragionamento graduale con un preciso ancoraggio visivo. Introduciamo S-Chain, il primo dataset su larga scala composto da 12.000 immagini mediche annotate da esperti con bounding box e CoT visivo strutturato (SV-CoT), che collega esplicitamente le regioni visive ai passaggi del ragionamento. Il dataset supporta inoltre 16 lingue, per un totale di oltre 700.000 coppie VQA, garantendo un'ampia applicabilità multilingue. Utilizzando S-Chain, abbiamo valutato i VLM medici all'avanguardia (ExGra-Med, LLaVA-Med) e i VLM generici (Qwen2.5-VL, InternVL2.5), dimostrando che la supervisione SV-CoT migliora significativamente l'interpretabilità, la fedeltà dell'ancoraggio e la robustezza. Oltre al benchmarking, abbiamo studiato la sua sinergia con la generazione aumentata dal retrieval, rivelando come la conoscenza del dominio e l'ancoraggio visivo interagiscano durante il ragionamento autoregressivo. Infine, proponiamo un nuovo meccanismo che rafforza l'allineamento tra l'evidenza visiva e il ragionamento, migliorando sia l'affidabilità che l'efficienza. S-Chain stabilisce un nuovo benchmark per il ragionamento medico ancorato e apre la strada verso VLM medici più affidabili e spiegabili.
English
Faithful reasoning in medical vision-language models (VLMs) requires not only
accurate predictions but also transparent alignment between textual rationales
and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise
in medical visual question answering (VQA), no large-scale expert-level dataset
has captured stepwise reasoning with precise visual grounding. We introduce
S-Chain, the first large-scale dataset of 12,000 expert-annotated medical
images with bounding boxes and structured visual CoT (SV-CoT), explicitly
linking visual regions to reasoning steps. The dataset further supports 16
languages, totaling over 700k VQA pairs for broad multilingual applicability.
Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med,
LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that
SV-CoT supervision significantly improves interpretability, grounding fidelity,
and robustness. Beyond benchmarking, we study its synergy with
retrieval-augmented generation, revealing how domain knowledge and visual
grounding interact during autoregressive reasoning. Finally, we propose a new
mechanism that strengthens the alignment between visual evidence and reasoning,
improving both reliability and efficiency. S-Chain establishes a new benchmark
for grounded medical reasoning and paves the way toward more trustworthy and
explainable medical VLMs.