Colon-X: マルチモーダル理解から臨床推論へ進化するインテリジェント大腸内視鏡検査
Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning
December 3, 2025
著者: Ge-Peng Ji, Jingyi Liu, Deng-Ping Fan, Nick Barnes
cs.AI
要旨
本研究では、大腸内視鏡検査におけるマルチモーダル知能の進展を目指すオープンイニシアチブ「Colon-X」を提案する。まず、大腸内視鏡検査分野で過去最大となる包括的なマルチモーダルデータセットColonVQAを構築した。本データセットは76の臨床所見と18のマルチモーダルタスクにわたる110万以上の視覚質問応答エントリーを特徴とする。コミュニティ全体のデータ基盤としての役割に加えて、我々は大腸内視鏡検査における重要ながら未開拓の転換点—マルチモーダル理解から臨床推論への進化—を探究する。(a) マルチモーダル理解の現状を把握するため、22の大規模マルチモーダル言語モデルの一般化性能を体系的に評価し、人為的摂動下での信頼性を検証した。その結果、主要MLLMの臨床出力は頑健性・信頼性の面で未だ不十分であることが明らかになった。(b) この課題を解決するため、大腸内視鏡検査に特化した推論中心の知能を探求する。具体的には、多専門家討論パイプラインにより注釈付けされた臨床根拠に基づく推論データセットColonReasonを構築し、タスク適応型報酬設計と勾配安定化最適化技術を組み込んだ初のR1スタイルモデルColonR1を開発した。データ不足条件下において、我々のColonR1は56.61%の総合精度を達成し、教師ありファインチューニングを25.22%上回り、マルチモーダル大腸内視鏡分析のための新たな推論可能なベースラインを確立した。全てのデータ及びモデルリソースはhttps://github.com/ai4colonoscopy/Colon-X で公開している。
English
In this study, we present Colon-X, an open initiative aimed at advancing multimodal intelligence in colonoscopy. We begin by constructing ColonVQA, the most comprehensive multimodal dataset ever built for colonoscopy, featuring over 1.1M+ visual question answering entries across 76 clinical findings and 18 multimodal tasks. Beyond serving as a community-wide data foundation, we further investigate a critical yet underexplored transition in colonoscopy - evolving from multimodal understanding to clinical reasoning: (a) To capture the current landscape of multimodal understanding behaviors, we systematically assess the generalizability of 22 multimodal large language models and examine their reliability under human-induced perturbations. The results reveal that clinical outputs from leading MLLMs remain far from robust and trustworthy. (b) To narrow this gap, we further explore reasoning-centric intelligence tailored for colonoscopy. Specifically, we curate ColonReason, a clinically grounded reasoning dataset annotated through a multi-expert debating pipeline, and develop ColonR1, the first R1-styled model incorporating task-adaptive rewarding and gradient-stable optimization techniques. Under data-scarce conditions, our ColonR1 achieves 56.61% overall accuracy, outperforming supervised fine-tuning by 25.22%, and sets a new reasoning-enabled baseline for multimodal colonoscopy analysis. All data and model resources are publicly available at https://github.com/ai4colonoscopy/Colon-X.