ChatPaper.aiChatPaper

콜론-X: 다중모달 이해에서 임상 추론까지 지능형 대장내시경의 발전

Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning

December 3, 2025
저자: Ge-Peng Ji, Jingyi Liu, Deng-Ping Fan, Nick Barnes
cs.AI

초록

본 연구에서는 대장내시경 분야의 다중모달 인텔리전스 발전을 위한 오픈 이니셔티브인 Colon-X를 소개한다. 먼저 76개 임상 소견과 18개 다중모달 작업에 걸쳐 110만 개 이상의 시각 질의응답 항목으로 구성된 역대 가장 포괄적인 다중모달 데이터셋인 ColonVQA를 구축하였다. 커뮤니티 차원의 데이터 기반을 제공하는 것을 넘어, 우리는 대장내시경에서 중요한 yet 미개척된 전환점—다중모달 이해에서 임상 추론으로의 진화—을 심도 있게 탐구한다: (a) 현재 다중모달 이해 행태의 현황을 파악하기 위해 22개 다중모달 대규모 언어 모델의 일반화 성능을 체계적으로 평가하고 인간에 의한 교란 하에서의 신뢰성을 검토하였다. 그 결과, 주요 MLLM들의 임상 출력이 견고성과 신뢰성 측면에서 아직 요원한 수준임이 드러났다. (b) 이 격차를 해소하기 위해 대장내시경에 특화된 추론 중심 인텔리전스를 추가로 탐구한다. 구체적으로, 다중 전문가 토론 파이프라인을 통해 주석이 달린 임상 기반 추론 데이터셋인 ColonReason을 구축하고, 작업 적응형 보상 및 경사 안정화 최적화 기법을 통합한 최초의 R1 스타일 모델인 ColonR1을 개발하였다. 데이터 부족 조건에서 우리의 ColonR1은 56.61%의 전체 정확도를 달성하여 지도 미세조정 대비 25.22% 우수한 성능을 보였으며, 다중모달 대장내시경 분석을 위한 새로운 추론 가능 기반선을 설정하였다. 모든 데이터와 모델 리소스는 https://github.com/ai4colonoscopy/Colon-X에서 공개적으로 이용 가능하다.
English
In this study, we present Colon-X, an open initiative aimed at advancing multimodal intelligence in colonoscopy. We begin by constructing ColonVQA, the most comprehensive multimodal dataset ever built for colonoscopy, featuring over 1.1M+ visual question answering entries across 76 clinical findings and 18 multimodal tasks. Beyond serving as a community-wide data foundation, we further investigate a critical yet underexplored transition in colonoscopy - evolving from multimodal understanding to clinical reasoning: (a) To capture the current landscape of multimodal understanding behaviors, we systematically assess the generalizability of 22 multimodal large language models and examine their reliability under human-induced perturbations. The results reveal that clinical outputs from leading MLLMs remain far from robust and trustworthy. (b) To narrow this gap, we further explore reasoning-centric intelligence tailored for colonoscopy. Specifically, we curate ColonReason, a clinically grounded reasoning dataset annotated through a multi-expert debating pipeline, and develop ColonR1, the first R1-styled model incorporating task-adaptive rewarding and gradient-stable optimization techniques. Under data-scarce conditions, our ColonR1 achieves 56.61% overall accuracy, outperforming supervised fine-tuning by 25.22%, and sets a new reasoning-enabled baseline for multimodal colonoscopy analysis. All data and model resources are publicly available at https://github.com/ai4colonoscopy/Colon-X.
PDF32December 9, 2025