S-Chain: Catena di Ragionamento Visivo Strutturata per la Medicina

Abstract

Il ragionamento affidabile nei modelli visione-linguaggio (VLM) medici richiede non solo previsioni accurate, ma anche un allineamento trasparente tra le motivazioni testuali e l'evidenza visiva. Sebbene il prompting a catena del pensiero (CoT) abbia mostrato potenzialità nel task di risposta a domande visive (VQA) in ambito medico, non esisteva un dataset su larga scala di livello esperto che catturasse un ragionamento graduale con un preciso ancoraggio visivo. Introduciamo S-Chain, il primo dataset su larga scala composto da 12.000 immagini mediche annotate da esperti con bounding box e CoT visivo strutturato (SV-CoT), che collega esplicitamente le regioni visive ai passaggi del ragionamento. Il dataset supporta inoltre 16 lingue, per un totale di oltre 700.000 coppie VQA, garantendo un'ampia applicabilità multilingue. Utilizzando S-Chain, abbiamo valutato i VLM medici all'avanguardia (ExGra-Med, LLaVA-Med) e i VLM generici (Qwen2.5-VL, InternVL2.5), dimostrando che la supervisione SV-CoT migliora significativamente l'interpretabilità, la fedeltà dell'ancoraggio e la robustezza. Oltre al benchmarking, abbiamo studiato la sua sinergia con la generazione aumentata dal retrieval, rivelando come la conoscenza del dominio e l'ancoraggio visivo interagiscano durante il ragionamento autoregressivo. Infine, proponiamo un nuovo meccanismo che rafforza l'allineamento tra l'evidenza visiva e il ragionamento, migliorando sia l'affidabilità che l'efficienza. S-Chain stabilisce un nuovo benchmark per il ragionamento medico ancorato e apre la strada verso VLM medici più affidabili e spiegabili.

English

Faithful reasoning in medical vision-language models (VLMs) requires not only accurate predictions but also transparent alignment between textual rationales and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise in medical visual question answering (VQA), no large-scale expert-level dataset has captured stepwise reasoning with precise visual grounding. We introduce S-Chain, the first large-scale dataset of 12,000 expert-annotated medical images with bounding boxes and structured visual CoT (SV-CoT), explicitly linking visual regions to reasoning steps. The dataset further supports 16 languages, totaling over 700k VQA pairs for broad multilingual applicability. Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med, LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that SV-CoT supervision significantly improves interpretability, grounding fidelity, and robustness. Beyond benchmarking, we study its synergy with retrieval-augmented generation, revealing how domain knowledge and visual grounding interact during autoregressive reasoning. Finally, we propose a new mechanism that strengthens the alignment between visual evidence and reasoning, improving both reliability and efficiency. S-Chain establishes a new benchmark for grounded medical reasoning and paves the way toward more trustworthy and explainable medical VLMs.

S-Chain: Catena di Ragionamento Visivo Strutturata per la Medicina

S-Chain: Structured Visual Chain-of-Thought For Medicine

Abstract

Support