Colon-X: De evolutie van intelligente coloscopie van multimodale interpretatie naar klinisch redeneren
Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning
December 3, 2025
Auteurs: Ge-Peng Ji, Jingyi Liu, Deng-Ping Fan, Nick Barnes
cs.AI
Samenvatting
In deze studie presenteren wij Colon-X, een open initiatief dat tot doel heeft de multimodale intelligentie binnen colonoscopie verder te ontwikkelen. We beginnen met de constructie van ColonVQA, de meest uitgebreide multimodale dataset die ooit voor colonoscopie is opgebouwd, met meer dan 1,1 miljoen visuele vraag-en-antwoord items verspreid over 76 klinische bevindingen en 18 multimodale taken. Naast haar rol als gemeenschappelijke datafundering, onderzoeken we verder een kritieke maar onderbelichte transitie in colonoscopie: de evolutie van multimodale begripsvorming naar klinisch redeneren. (a) Om het huidige landschap van multimodaal begrip in kaart te brengen, evalueren we systematisch de generaliseerbaarheid van 22 multimodale large language models en onderzoeken we hun betrouwbaarheid onder door mensen geïnduceerde verstoringen. De resultaten tonen aan dat de klinische output van toonaangevende MLLM's nog verre van robuust en betrouwbaar is. (b) Om deze kloof te verkleinen, verkennen we verder een redeneringsgerichte intelligentie, toegesneden op colonoscopie. Concreet stellen we ColonReason samen, een klinisch onderbouwde redeneerdataset die via een multi-expert debatpipeline is geannoteerd, en ontwikkelen we ColonR1, het eerste R1-type model dat gebruikmaakt van taakadaptieve belonings- en gradient-stabiele optimalisatietechnieken. Onder data-arme omstandigheden behaalt onze ColonR1 een algemene nauwkeurigheid van 56,61%, wat 25,22% hoger ligt dan supervised fine-tuning, en stelt het een nieuwe, redeneringsondersteunde basislijn voor multimodale colonoscopie-analyse. Alle data en modelbronnen zijn openbaar beschikbaar op https://github.com/ai4colonoscopy/Colon-X.
English
In this study, we present Colon-X, an open initiative aimed at advancing multimodal intelligence in colonoscopy. We begin by constructing ColonVQA, the most comprehensive multimodal dataset ever built for colonoscopy, featuring over 1.1M+ visual question answering entries across 76 clinical findings and 18 multimodal tasks. Beyond serving as a community-wide data foundation, we further investigate a critical yet underexplored transition in colonoscopy - evolving from multimodal understanding to clinical reasoning: (a) To capture the current landscape of multimodal understanding behaviors, we systematically assess the generalizability of 22 multimodal large language models and examine their reliability under human-induced perturbations. The results reveal that clinical outputs from leading MLLMs remain far from robust and trustworthy. (b) To narrow this gap, we further explore reasoning-centric intelligence tailored for colonoscopy. Specifically, we curate ColonReason, a clinically grounded reasoning dataset annotated through a multi-expert debating pipeline, and develop ColonR1, the first R1-styled model incorporating task-adaptive rewarding and gradient-stable optimization techniques. Under data-scarce conditions, our ColonR1 achieves 56.61% overall accuracy, outperforming supervised fine-tuning by 25.22%, and sets a new reasoning-enabled baseline for multimodal colonoscopy analysis. All data and model resources are publicly available at https://github.com/ai4colonoscopy/Colon-X.