Colon-X: Развитие интеллектуальной колоноскопии от мультимодального анализа к клиническому принятию решений
Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning
December 3, 2025
Авторы: Ge-Peng Ji, Jingyi Liu, Deng-Ping Fan, Nick Barnes
cs.AI
Аннотация
В данном исследовании мы представляем Colon-X — открытую инициативу, направленную на развитие мультимодального искусственного интеллекта для колоноскопии. Мы начинаем с создания ColonVQA, наиболее полного мультимодального набора данных для колоноскопии из когда-либо разработанных, содержащего более 1,1 миллиона записей визуальных вопросов и ответов, охватывающих 76 клинических находок и 18 мультимодальных задач. Помимо создания общедоступной основы данных, мы исследуем ключевой, но недостаточно изученный переход в колоноскопии — эволюцию от мультимодального понимания к клиническому рассуждению: (a) Чтобы оценить текущее состояние моделей мультимодального понимания, мы систематически тестируем обобщающую способность 22 больших мультимодальных языковых моделей и исследуем их надежность при антропогенных возмущениях. Результаты показывают, что клинические выводы ведущих MLLM-моделей остаются далекими от робастности и достоверности. (b) Чтобы сократить этот разрыв, мы исследуем рассужденчески-ориентированный интеллект, адаптированный для колоноскопии. В частности, мы создаем ColonReason — клинически обоснованный набор данных для рассуждений, аннотированный с помощью многоэкспертного дебатного пайплайна, и разрабатываем ColonR1 — первую модель в стиле R1, включающую методы адаптивного вознаграждения задач и градиентно-стабильной оптимизации. В условиях дефицита данных наша модель ColonR1 достигает общей точности 56,61%, превосходя supervised fine-tuning на 25,22%, и устанавливает новую базовую линию для мультимодального анализа колоноскопии с поддержкой рассуждений. Все данные и модельные ресурсы находятся в открытом доступе по адресу https://github.com/ai4colonoscopy/Colon-X.
English
In this study, we present Colon-X, an open initiative aimed at advancing multimodal intelligence in colonoscopy. We begin by constructing ColonVQA, the most comprehensive multimodal dataset ever built for colonoscopy, featuring over 1.1M+ visual question answering entries across 76 clinical findings and 18 multimodal tasks. Beyond serving as a community-wide data foundation, we further investigate a critical yet underexplored transition in colonoscopy - evolving from multimodal understanding to clinical reasoning: (a) To capture the current landscape of multimodal understanding behaviors, we systematically assess the generalizability of 22 multimodal large language models and examine their reliability under human-induced perturbations. The results reveal that clinical outputs from leading MLLMs remain far from robust and trustworthy. (b) To narrow this gap, we further explore reasoning-centric intelligence tailored for colonoscopy. Specifically, we curate ColonReason, a clinically grounded reasoning dataset annotated through a multi-expert debating pipeline, and develop ColonR1, the first R1-styled model incorporating task-adaptive rewarding and gradient-stable optimization techniques. Under data-scarce conditions, our ColonR1 achieves 56.61% overall accuracy, outperforming supervised fine-tuning by 25.22%, and sets a new reasoning-enabled baseline for multimodal colonoscopy analysis. All data and model resources are publicly available at https://github.com/ai4colonoscopy/Colon-X.