ChatPaper.aiChatPaper

Colon-X: Fortschritte bei der intelligenten Koloskopie – von multimodalem Verständnis zur klinischen Entscheidungsfindung

Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning

December 3, 2025
papers.authors: Ge-Peng Ji, Jingyi Liu, Deng-Ping Fan, Nick Barnes
cs.AI

papers.abstract

In dieser Studie stellen wir Colon-X vor, eine offene Initiative zur Förderung multimodaler Intelligenz in der Koloskopie. Wir beginnen mit der Erstellung von ColonVQA, dem bisher umfassendsten multimodalen Datensatz für die Koloskopie, der über 1,1 Millionen Visual-Question-Answering-Einträge zu 76 klinischen Befunden und 18 multimodalen Aufgaben umfasst. Über die Funktion als datenbasierte Grundlage für die wissenschaftliche Gemeinschaft hinaus untersuchen wir einen kritischen, aber bisher wenig erforschten Übergang in der Koloskopie: die Entwicklung von multimodalem Verständnis hin zu klinischem Reasoning. (a) Um den aktuellen Stand des multimodalen Verstehens zu erfassen, bewerten wir systematisch die Generalisierbarkeit von 22 multimodalen Large Language Models und untersuchen ihre Zuverlässigkeit unter menschlich induzierten Störungen. Die Ergebnisse zeigen, dass die klinischen Ausgaben führender MLLMs noch weit davon entfernt sind, robust und vertrauenswürdig zu sein. (b) Um diese Lücke zu schließen, erforschen wir weiterhin reasoning-zentrierte Intelligenz, die speziell für die Koloskopie zugeschnitten ist. Konkret erstellen wir ColonReason, einen klinisch fundierten Reasoning-Datensatz, der durch einen Multi-Expert-Debatten-Prozess annotiert wurde, und entwickeln ColonR1, das erste R1-artige Modell, das aufgabenadaptive Belohnungs- und gradientenstabile Optimierungstechniken integriert. Unter datenarmen Bedingungen erzielt unser ColonR1 eine Gesamtgenauigkeit von 56,61 %, übertrifft damit supervised Fine-Tuning um 25,22 % und setzt einen neuen Reasoning-fähigen Maßstab für die multimodale Koloskopieanalyse. Alle Daten- und Modellressourcen sind öffentlich unter https://github.com/ai4colonoscopy/Colon-X verfügbar.
English
In this study, we present Colon-X, an open initiative aimed at advancing multimodal intelligence in colonoscopy. We begin by constructing ColonVQA, the most comprehensive multimodal dataset ever built for colonoscopy, featuring over 1.1M+ visual question answering entries across 76 clinical findings and 18 multimodal tasks. Beyond serving as a community-wide data foundation, we further investigate a critical yet underexplored transition in colonoscopy - evolving from multimodal understanding to clinical reasoning: (a) To capture the current landscape of multimodal understanding behaviors, we systematically assess the generalizability of 22 multimodal large language models and examine their reliability under human-induced perturbations. The results reveal that clinical outputs from leading MLLMs remain far from robust and trustworthy. (b) To narrow this gap, we further explore reasoning-centric intelligence tailored for colonoscopy. Specifically, we curate ColonReason, a clinically grounded reasoning dataset annotated through a multi-expert debating pipeline, and develop ColonR1, the first R1-styled model incorporating task-adaptive rewarding and gradient-stable optimization techniques. Under data-scarce conditions, our ColonR1 achieves 56.61% overall accuracy, outperforming supervised fine-tuning by 25.22%, and sets a new reasoning-enabled baseline for multimodal colonoscopy analysis. All data and model resources are publicly available at https://github.com/ai4colonoscopy/Colon-X.
PDF32December 9, 2025