Colon-Bench: Um Fluxo de Trabalho Autônomo para Anotação Escalável de Lesões Densas em Vídeos de Colonoscopia de Procedimento Completo

Resumo

A triagem precoce por colonoscopia é crucial para a prevenção do cancro do cólon, mas o desenvolvimento de sistemas robustos de IA para esta área é dificultado pela falta de conjuntos de dados de vídeo de sequência longa e densamente anotados. Os conjuntos de dados existentes focam-se predominantemente na deteção de pólipos de classe única e carecem das ricas anotações espaciais, temporais e linguísticas necessárias para avaliar os modernos Modelos de Linguagem Grande Multimodais (MLLMs). Para colmatar esta lacuna crítica, apresentamos o Colon-Bench, gerado através de um novo fluxo de trabalho agentico multiestágio. O nosso pipeline integra perfeitamente propostas temporais, rastreamento de caixas delimitadoras, confirmação visual baseada em IA e revisão humana em ciclo para anotar de forma escalável vídeos de procedimentos completos. O benchmark verificado resultante é sem precedentes em alcance, abrangendo 528 vídeos, 14 categorias distintas de lesões (incluindo pólipos, úlceras e hemorragias), mais de 300.000 caixas delimitadoras, 213.000 máscaras de segmentação e 133.000 palavras de descrições clínicas. Utilizamos o Colon-Bench para avaliar rigorosamente MLLMs de última geração em classificação de lesões, Segmentação de Objetos em Vídeo de Vocabulário Aberto (OV-VOS) e Resposta a Questões sobre Vídeo (VQA). Os resultados dos MLLMs demonstram um desempenho de localização surpreendentemente elevado em domínios médicos em comparação com o SAM-3. Finalmente, analisamos os erros comuns de VQA dos MLLMs para introduzir uma nova estratégia de "prompting" de "competência do cólon" (*colon-skill*), melhorando o desempenho *zero-shot* dos MLLMs em até 9,7% na maioria dos modelos. O conjunto de dados e o código estão disponíveis em https://abdullahamdi.com/colon-bench.

English

Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predominantly focus on single-class polyp detection and lack the rich spatial, temporal, and linguistic annotations required to evaluate modern Multimodal Large Language Models (MLLMs). To address this critical gap, we introduce Colon-Bench, generated via a novel multi-stage agentic workflow. Our pipeline seamlessly integrates temporal proposals, bounding-box tracking, AI-driven visual confirmation, and human-in-the-loop review to scalably annotate full-procedure videos. The resulting verified benchmark is unprecedented in scope, encompassing 528 videos, 14 distinct lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions. We utilize Colon-Bench to rigorously evaluate state-of-the-art MLLMs across lesion classification, Open-Vocabulary Video Object Segmentation (OV-VOS), and video Visual Question Answering (VQA). The MLLM results demonstrate surprisingly high localization performance in medical domains compared to SAM-3. Finally, we analyze common VQA errors from MLLMs to introduce a novel "colon-skill" prompting strategy, improving zero-shot MLLM performance by up to 9.7% across most MLLMs. The dataset and the code are available at https://abdullahamdi.com/colon-bench .

Colon-Bench: Um Fluxo de Trabalho Autônomo para Anotação Escalável de Lesões Densas em Vídeos de Colonoscopia de Procedimento Completo

Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

Resumo

Support