Colon-X : Faire progresser la coloscopie intelligente, de la compréhension multimodale au raisonnement clinique
Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning
December 3, 2025
papers.authors: Ge-Peng Ji, Jingyi Liu, Deng-Ping Fan, Nick Barnes
cs.AI
papers.abstract
Dans cette étude, nous présentons Colon-X, une initiative ouverte visant à faire progresser l'intelligence multimodale en coloscopie. Nous commençons par construire ColonVQA, l'ensemble de données multimodales le plus complet jamais réalisé pour la coloscopie, comprenant plus de 1,1 million d'entrées de question-réponse visuelle couvrant 76 observations cliniques et 18 tâches multimodales. Au-delà de son rôle de fondation de données pour la communauté scientifique, nous étudions une transition cruciale mais encore peu explorée en coloscopie : l'évolution de la compréhension multimodale vers le raisonnement clinique. (a) Pour saisir l'état actuel des capacités de compréhension multimodale, nous évaluons systématiquement la généralisabilité de 22 grands modèles de langage multimodaux et examinons leur fiabilité face à des perturbations d'origine humaine. Les résultats révèlent que les sorties cliniques des principaux MLLM sont encore loin d'être robustes et fiables. (b) Pour combler cette lacune, nous explorons une intelligence axée sur le raisonnement spécifiquement adaptée à la coloscopie. Plus précisément, nous constituons ColonReason, un ensemble de données de raisonnement ancré cliniquement et annoté via un pipeline de débat multi-experts, et nous développons ColonR1, le premier modèle de style R1 intégrant des techniques de récompense adaptative aux tâches et d'optimisation à gradient stable. Dans des conditions de données limitées, notre modèle ColonR1 atteint une précision globale de 56,61 %, surpassant l'apprentissage supervisé finement ajusté de 25,22 %, et établit une nouvelle référence pour l'analyse multimodale de la coloscopie avec capacités de raisonnement. Toutes les données et ressources des modèles sont publiquement disponibles à l'adresse https://github.com/ai4colonoscopy/Colon-X.
English
In this study, we present Colon-X, an open initiative aimed at advancing multimodal intelligence in colonoscopy. We begin by constructing ColonVQA, the most comprehensive multimodal dataset ever built for colonoscopy, featuring over 1.1M+ visual question answering entries across 76 clinical findings and 18 multimodal tasks. Beyond serving as a community-wide data foundation, we further investigate a critical yet underexplored transition in colonoscopy - evolving from multimodal understanding to clinical reasoning: (a) To capture the current landscape of multimodal understanding behaviors, we systematically assess the generalizability of 22 multimodal large language models and examine their reliability under human-induced perturbations. The results reveal that clinical outputs from leading MLLMs remain far from robust and trustworthy. (b) To narrow this gap, we further explore reasoning-centric intelligence tailored for colonoscopy. Specifically, we curate ColonReason, a clinically grounded reasoning dataset annotated through a multi-expert debating pipeline, and develop ColonR1, the first R1-styled model incorporating task-adaptive rewarding and gradient-stable optimization techniques. Under data-scarce conditions, our ColonR1 achieves 56.61% overall accuracy, outperforming supervised fine-tuning by 25.22%, and sets a new reasoning-enabled baseline for multimodal colonoscopy analysis. All data and model resources are publicly available at https://github.com/ai4colonoscopy/Colon-X.