Colon-Bench: Un Flujo de Trabajo Autónomo para la Anotación Escalable de Lesiones Densas en Videos de Colonoscopia de Procedimiento Completo

Resumen

La detección temprana mediante colonoscopia es crucial para la prevención del cáncer de colon, sin embargo, el desarrollo de sistemas robustos de IA para este ámbito se ve obstaculizado por la falta de conjuntos de datos de video de secuencias largas y anotaciones densas. Los conjuntos de datos existentes se centran predominantemente en la detección de pólipos de una sola clase y carecen de las ricas anotaciones espaciales, temporales y lingüísticas necesarias para evaluar los Modelos de Lenguaje Grandes Multimodales (MLLM) modernos. Para abordar esta brecha crítica, presentamos Colon-Bench, generado mediante un novedoso flujo de trabajo agentico multi-etapa. Nuestra canalización integra perfectamente propuestas temporales, seguimiento de cuadros delimitadores, confirmación visual impulsada por IA y revisión con intervención humana para anotar de manera escalable videos de procedimientos completos. El benchmark verificado resultante no tiene precedentes en alcance, abarcando 528 videos, 14 categorías distintas de lesiones (incluyendo pólipos, úlceras y sangrado), más de 300,000 cuadros delimitadores, 213,000 máscaras de segmentación y 133,000 palabras de descripciones clínicas. Utilizamos Colon-Bench para evaluar rigurosamente los MLLM más avanzados en clasificación de lesiones, Segmentación de Objetos en Video de Vocabulario Abierto (OV-VOS) y Respuesta a Preguntas Visuales en video (VQA). Los resultados de los MLLM demuestran un rendimiento de localización sorprendentemente alto en dominios médicos en comparación con SAM-3. Finalmente, analizamos errores comunes de VQA en los MLLM para introducir una novedosa estrategia de "inducción por habilidades de colon" (colon-skill prompting), mejorando el rendimiento zero-shot de los MLLM hasta en un 9.7% en la mayoría de los modelos. El conjunto de datos y el código están disponibles en https://abdullahamdi.com/colon-bench.

English

Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predominantly focus on single-class polyp detection and lack the rich spatial, temporal, and linguistic annotations required to evaluate modern Multimodal Large Language Models (MLLMs). To address this critical gap, we introduce Colon-Bench, generated via a novel multi-stage agentic workflow. Our pipeline seamlessly integrates temporal proposals, bounding-box tracking, AI-driven visual confirmation, and human-in-the-loop review to scalably annotate full-procedure videos. The resulting verified benchmark is unprecedented in scope, encompassing 528 videos, 14 distinct lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions. We utilize Colon-Bench to rigorously evaluate state-of-the-art MLLMs across lesion classification, Open-Vocabulary Video Object Segmentation (OV-VOS), and video Visual Question Answering (VQA). The MLLM results demonstrate surprisingly high localization performance in medical domains compared to SAM-3. Finally, we analyze common VQA errors from MLLMs to introduce a novel "colon-skill" prompting strategy, improving zero-shot MLLM performance by up to 9.7% across most MLLMs. The dataset and the code are available at https://abdullahamdi.com/colon-bench .

Colon-Bench: Un Flujo de Trabajo Autónomo para la Anotación Escalable de Lesiones Densas en Videos de Colonoscopia de Procedimiento Completo

Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

Resumen

Support