ChatPaper.aiChatPaper

Colon-X: Avanzando en la Colonoscopia Inteligente desde la Comprensión Multimodal hasta el Razonamiento Clínico

Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning

December 3, 2025
Autores: Ge-Peng Ji, Jingyi Liu, Deng-Ping Fan, Nick Barnes
cs.AI

Resumen

En este estudio presentamos Colon-X, una iniciativa abierta dirigida a avanzar la inteligencia multimodal en colonoscopia. Comenzamos construyendo ColonVQA, el conjunto de datos multimodal más completo jamás creado para colonoscopia, que incluye más de 1.1 millones de entradas de pregunta-respuesta visual sobre 76 hallazgos clínicos y 18 tareas multimodales. Más allá de servir como base de datos para toda la comunidad, investigamos además una transición crítica pero poco explorada en colonoscopia: la evolución desde la comprensión multimodal hacia el razonamiento clínico: (a) Para captar el panorama actual de los comportamientos de comprensión multimodal, evaluamos sistemáticamente la generalización de 22 modelos grandes de lenguaje multimodal y examinamos su fiabilidad bajo perturbaciones inducidas por humanos. Los resultados revelan que los resultados clínicos de los principales MLLM distan mucho de ser robustos y confiables. (b) Para reducir esta brecha, exploramos además una inteligencia centrada en el razonamiento adaptada a la colonoscopia. Específicamente, recopilamos ColonReason, un conjunto de datos de razonamiento con base clínica anotado mediante un pipeline de debate multi-experto, y desarrollamos ColonR1, el primer modelo de estilo R1 que incorpora técnicas de recompensa adaptativa a la tarea y optimización con gradiente estable. En condiciones de escasez de datos, nuestro ColonR1 alcanza una precisión global del 56.61%, superando al ajuste fino supervisado en un 25.22%, y establece una nueva línea base con capacidad de razonamiento para el análisis multimodal de colonoscopia. Todos los datos y recursos del modelo están disponibles públicamente en https://github.com/ai4colonoscopy/Colon-X.
English
In this study, we present Colon-X, an open initiative aimed at advancing multimodal intelligence in colonoscopy. We begin by constructing ColonVQA, the most comprehensive multimodal dataset ever built for colonoscopy, featuring over 1.1M+ visual question answering entries across 76 clinical findings and 18 multimodal tasks. Beyond serving as a community-wide data foundation, we further investigate a critical yet underexplored transition in colonoscopy - evolving from multimodal understanding to clinical reasoning: (a) To capture the current landscape of multimodal understanding behaviors, we systematically assess the generalizability of 22 multimodal large language models and examine their reliability under human-induced perturbations. The results reveal that clinical outputs from leading MLLMs remain far from robust and trustworthy. (b) To narrow this gap, we further explore reasoning-centric intelligence tailored for colonoscopy. Specifically, we curate ColonReason, a clinically grounded reasoning dataset annotated through a multi-expert debating pipeline, and develop ColonR1, the first R1-styled model incorporating task-adaptive rewarding and gradient-stable optimization techniques. Under data-scarce conditions, our ColonR1 achieves 56.61% overall accuracy, outperforming supervised fine-tuning by 25.22%, and sets a new reasoning-enabled baseline for multimodal colonoscopy analysis. All data and model resources are publicly available at https://github.com/ai4colonoscopy/Colon-X.
PDF32December 9, 2025