Colon-Bench: Un flusso di lavoro agentivo per l'annotazione scalabile di lesioni dense nei video di colonscopia a procedura completa

Abstract

Lo screening precoce tramite colonscopia è fondamentale per la prevenzione del cancro al colon, tuttavia lo sviluppo di sistemi di IA robusti per questo ambito è ostacolato dalla carenza di dataset video di sequenze lunghe e densamente annotate. I dataset esistenti si concentrano prevalentemente sul rilevamento di polipi a classe singola e mancano delle ricche annotazioni spaziali, temporali e linguistiche necessarie per valutare i moderni Modelli Linguistici Multimodali di Grande Dimensione (MLLM). Per colmare questa lacuna critica, introduciamo Colon-Bench, generato tramite un innovativo workflow agente multi-stadio. La nostra pipeline integra in modo fluido proposte temporali, tracciamento dei bounding-box, conferma visiva guidata dall'IA e revisione umana in-the-loop per annotare in modo scalabile video di procedure complete. Il benchmark verificato risultante è senza precedenti per portata, comprendendo 528 video, 14 distinte categorie di lesioni (inclusi polipi, ulcere e sanguinamenti), oltre 300.000 bounding box, 213.000 maschere di segmentazione e 133.000 parole di descrizioni cliniche. Utilizziamo Colon-Bench per valutare rigorosamente gli MLLM all'avanguardia in compiti di classificazione delle lesioni, Segmentazione di Oggetti Video Open-Vocabulary (OV-VOS) e Video Visual Question Answering (VQA). I risultati degli MLLM dimostrano una performance di localizzazione sorprendentemente elevata negli ambiti medici rispetto a SAM-3. Infine, analizziamo gli errori VQA comuni degli MLLM per introdurre una nuova strategia di prompting "colon-skill", che migliora le prestazioni zero-shot degli MLLM fino al 9,7% nella maggior parte dei modelli. Il dataset e il codice sono disponibili al sito https://abdullahamdi.com/colon-bench.

English

Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predominantly focus on single-class polyp detection and lack the rich spatial, temporal, and linguistic annotations required to evaluate modern Multimodal Large Language Models (MLLMs). To address this critical gap, we introduce Colon-Bench, generated via a novel multi-stage agentic workflow. Our pipeline seamlessly integrates temporal proposals, bounding-box tracking, AI-driven visual confirmation, and human-in-the-loop review to scalably annotate full-procedure videos. The resulting verified benchmark is unprecedented in scope, encompassing 528 videos, 14 distinct lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions. We utilize Colon-Bench to rigorously evaluate state-of-the-art MLLMs across lesion classification, Open-Vocabulary Video Object Segmentation (OV-VOS), and video Visual Question Answering (VQA). The MLLM results demonstrate surprisingly high localization performance in medical domains compared to SAM-3. Finally, we analyze common VQA errors from MLLMs to introduce a novel "colon-skill" prompting strategy, improving zero-shot MLLM performance by up to 9.7% across most MLLMs. The dataset and the code are available at https://abdullahamdi.com/colon-bench .

Colon-Bench: Un flusso di lavoro agentivo per l'annotazione scalabile di lesioni dense nei video di colonscopia a procedura completa

Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

Abstract

Support