Colon-Bench: Een agent-gebaseerde workflow voor schaalbare annotatie van dichte laesies in volledige colonoscopievideo's
Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos
March 26, 2026
Auteurs: Abdullah Hamdi, Changchun Yang, Xin Gao
cs.AI
Samenvatting
Vroegtijdige screening via coloscopie is cruciaal voor de preventie van darmkanker, maar de ontwikkeling van robuuste AI-systemen voor dit domein wordt belemmerd door een gebrek aan dicht geannoteerde, lange videoreeksen. Bestaande datasets richten zich voornamelijk op de detectie van poliepen in één klasse en missen de rijke ruimtelijke, temporele en linguïstische annotaties die nodig zijn om moderne Multimodale Large Language Models (MLLM's) te evalueren. Om dit kritieke hiaat op te vullen, introduceren wij Colon-Bench, gegenereerd via een nieuwe multi-staps agent-gebaseerde workflow. Onze pijplijn integreert naadloos temporele voorstellen, bounding-box tracking, AI-gestelde visuele bevestiging en menselijke review om op schaal volledige procedurevideo's te annoteren. De resulterende geverifieerde benchmark is zonder precedent in omvang, met 528 video's, 14 verschillende letselcategorieën (inclusief poliepen, zweren en bloedingen), meer dan 300.000 bounding boxes, 213.000 segmentatiemaskers en 133.000 woorden aan klinische beschrijvingen. Wij gebruiken Colon-Bench om state-of-the-art MLLM's rigoureus te evalueren op letselclassificatie, Open-Vocabulary Video Object Segmentation (OV-VOS) en video Visual Question Answering (VQA). De MLLM-resultaten tonen verrassend hoge localisatieprestaties in medische domeinen vergeleken met SAM-3. Ten slotte analyseren wij veelvoorkomende VQA-fouten van MLLM's om een nieuwe "colon-skill" promptingstrategie te introduceren, die de zero-shot MLLM-prestaties bij de meeste MLLM's met tot 9,7% verbetert. De dataset en de code zijn beschikbaar op https://abdullahamdi.com/colon-bench.
English
Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predominantly focus on single-class polyp detection and lack the rich spatial, temporal, and linguistic annotations required to evaluate modern Multimodal Large Language Models (MLLMs). To address this critical gap, we introduce Colon-Bench, generated via a novel multi-stage agentic workflow. Our pipeline seamlessly integrates temporal proposals, bounding-box tracking, AI-driven visual confirmation, and human-in-the-loop review to scalably annotate full-procedure videos. The resulting verified benchmark is unprecedented in scope, encompassing 528 videos, 14 distinct lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions. We utilize Colon-Bench to rigorously evaluate state-of-the-art MLLMs across lesion classification, Open-Vocabulary Video Object Segmentation (OV-VOS), and video Visual Question Answering (VQA). The MLLM results demonstrate surprisingly high localization performance in medical domains compared to SAM-3. Finally, we analyze common VQA errors from MLLMs to introduce a novel "colon-skill" prompting strategy, improving zero-shot MLLM performance by up to 9.7% across most MLLMs. The dataset and the code are available at https://abdullahamdi.com/colon-bench .