Colon-X: L'evoluzione della colonscopia intelligente dalla comprensione multimodale al ragionamento clinico
Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning
December 3, 2025
Autori: Ge-Peng Ji, Jingyi Liu, Deng-Ping Fan, Nick Barnes
cs.AI
Abstract
In questo studio presentiamo Colon-X, un'iniziativa aperta finalizzata a far progredire l'intelligenza multimodale in colonscopia. Iniziamo costruendo ColonVQA, il dataset multimodale più completo mai realizzato per la colonscopia, caratterizzato da oltre 1,1 milioni di voci di visual question answering relative a 76 reperti clinici e 18 task multimodali. Oltre a fungere da base dati per l'intera comunità, approfondiamo ulteriormente una transizione cruciale ma poco esplorata nella colonscopia: l'evoluzione dalla comprensione multimodale al ragionamento clinico: (a) Per catturare lo scenario attuale dei comportamenti di comprensione multimodale, valutiamo sistematicamente la generalizzabilità di 22 modelli linguistici di grandi dimensioni multimodali ed esaminiamo la loro affidabilità sotto perturbazioni di origine umana. I risultati rivelano che gli output clinici dei principali MLLM sono ancora lontani dall'essere robusti e affidabili. (b) Per colmare questa lacuna, esploriamo ulteriormente un'intelligenza centrata sul ragionamento specifica per la colonscopia. Nello specifico, curiamo ColonReason, un dataset di ragionamento basato su fondamenti clinici annotato attraverso una pipeline di dibattito multi-esperto, e sviluppiamo ColonR1, il primo modello in stile R1 che incorpora tecniche di rewarding adattivo al task e di ottimizzazione a gradiente stabile. In condizioni di scarsità di dati, il nostro ColonR1 raggiunge un'accuratezza complessiva del 56.61%, superando il fine-tuning supervisionato del 25.22%, e stabilisce un nuovo baseline abilitato al ragionamento per l'analisi multimodale in colonscopia. Tutti i dati e le risorse modellistiche sono pubblicamente disponibili all'indirizzo https://github.com/ai4colonoscopy/Colon-X.
English
In this study, we present Colon-X, an open initiative aimed at advancing multimodal intelligence in colonoscopy. We begin by constructing ColonVQA, the most comprehensive multimodal dataset ever built for colonoscopy, featuring over 1.1M+ visual question answering entries across 76 clinical findings and 18 multimodal tasks. Beyond serving as a community-wide data foundation, we further investigate a critical yet underexplored transition in colonoscopy - evolving from multimodal understanding to clinical reasoning: (a) To capture the current landscape of multimodal understanding behaviors, we systematically assess the generalizability of 22 multimodal large language models and examine their reliability under human-induced perturbations. The results reveal that clinical outputs from leading MLLMs remain far from robust and trustworthy. (b) To narrow this gap, we further explore reasoning-centric intelligence tailored for colonoscopy. Specifically, we curate ColonReason, a clinically grounded reasoning dataset annotated through a multi-expert debating pipeline, and develop ColonR1, the first R1-styled model incorporating task-adaptive rewarding and gradient-stable optimization techniques. Under data-scarce conditions, our ColonR1 achieves 56.61% overall accuracy, outperforming supervised fine-tuning by 25.22%, and sets a new reasoning-enabled baseline for multimodal colonoscopy analysis. All data and model resources are publicly available at https://github.com/ai4colonoscopy/Colon-X.