Colon-X: Avançando a Colonoscopia Inteligente da Compreensão Multimodal ao Raciocínio Clínico

Resumo

Neste estudo, apresentamos o Colon-X, uma iniciativa aberta destinada a avançar a inteligência multimodal em colonoscopia. Começamos por construir o ColonVQA, o conjunto de dados multimodal mais abrangente já criado para colonoscopia, contendo mais de 1,1 milhão de entradas de resposta a perguntas visuais abrangendo 76 achados clínicos e 18 tarefas multimodais. Para além de servir como uma base de dados para a comunidade, investigamos ainda uma transição crítica mas pouco explorada na colonoscopia - a evolução da compreensão multimodal para o raciocínio clínico: (a) Para captar o panorama atual dos comportamentos de compreensão multimodal, avaliamos sistematicamente a generalização de 22 modelos de linguagem grandes multimodais e examinamos a sua fiabilidade sob perturbações induzidas por humanos. Os resultados revelam que os resultados clínicos dos principais MLLMs permanecem longe de serem robustos e confiáveis. (b) Para reduzir esta lacuna, exploramos ainda uma inteligência centrada no raciocínio adaptada para colonoscopia. Especificamente, criamos o ColonReason, um conjunto de dados de raciocínio clinicamente fundamentado anotado através de um pipeline de debate multipericial, e desenvolvemos o ColonR1, o primeiro modelo de estilo R1 que incorpora técnicas de recompensa adaptativa à tarefa e otimização com gradiente estável. Em condições de escassez de dados, o nosso ColonR1 atinge uma precisão global de 56,61%, superando o ajuste fino supervisionado em 25,22%, e estabelece uma nova linha de base habilitada para raciocínio para a análise multimodal de colonoscopia. Todos os dados e recursos do modelo estão publicamente disponíveis em https://github.com/ai4colonoscopy/Colon-X.

English

In this study, we present Colon-X, an open initiative aimed at advancing multimodal intelligence in colonoscopy. We begin by constructing ColonVQA, the most comprehensive multimodal dataset ever built for colonoscopy, featuring over 1.1M+ visual question answering entries across 76 clinical findings and 18 multimodal tasks. Beyond serving as a community-wide data foundation, we further investigate a critical yet underexplored transition in colonoscopy - evolving from multimodal understanding to clinical reasoning: (a) To capture the current landscape of multimodal understanding behaviors, we systematically assess the generalizability of 22 multimodal large language models and examine their reliability under human-induced perturbations. The results reveal that clinical outputs from leading MLLMs remain far from robust and trustworthy. (b) To narrow this gap, we further explore reasoning-centric intelligence tailored for colonoscopy. Specifically, we curate ColonReason, a clinically grounded reasoning dataset annotated through a multi-expert debating pipeline, and develop ColonR1, the first R1-styled model incorporating task-adaptive rewarding and gradient-stable optimization techniques. Under data-scarce conditions, our ColonR1 achieves 56.61% overall accuracy, outperforming supervised fine-tuning by 25.22%, and sets a new reasoning-enabled baseline for multimodal colonoscopy analysis. All data and model resources are publicly available at https://github.com/ai4colonoscopy/Colon-X.

Colon-X: Avançando a Colonoscopia Inteligente da Compreensão Multimodal ao Raciocínio Clínico

Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning

Resumo

Support