Colon-Bench: Ein agentenbasierter Workflow für skalierbare Annotation dichter Läsionen in vollständigen Koloskopie-Videos

Zusammenfassung

Früherkennung durch Koloskopie ist entscheidend für die Prävention von Darmkrebs, doch die Entwicklung robuster KI-Systeme für diesen Bereich wird durch den Mangel an dicht annotierten, langen Videodatensätzen erschwert. Bestehende Datensätze konzentrieren sich überwiegend auf die Ein-Klassen-Erkennung von Polypen und entbehren der umfassenden räumlichen, zeitlichen und sprachlichen Annotationen, die zur Evaluierung moderner Multimodaler Large Language Models (MLLMs) erforderlich sind. Um diese kritische Lücke zu schließen, stellen wir Colon-Bench vor, das mittels eines neuartigen, mehrstufigen agentenbasierten Workflows generiert wurde. Unsere Pipeline integriert nahtlos temporale Vorschläge, Bounding-Box-Tracking, KI-gestützte visuelle Bestätigung und menschliche Überprüfung (Human-in-the-Loop), um vollständige Untersuchungsvideos skalierbar zu annotieren. Der resultierende, verifizierte Benchmark ist in seinem Umfang beispiellos und umfasst 528 Videos, 14 verschiedene Läsionskategorien (einschließlich Polypen, Ulzera und Blutungen), über 300.000 Bounding-Boxes, 213.000 Segmentierungsmasken und 133.000 Wörter klinischer Beschreibungen. Wir nutzen Colon-Bench, um state-of-the-art MLLMs rigoros in den Bereichen Läsionsklassifikation, Open-Vocabulary Video Object Segmentation (OV-VOS) und Video Visual Question Answering (VQA) zu evaluieren. Die MLLM-Ergebnisse demonstrieren eine überraschend hohe Lokalisierungsleistung in medizinischen Domänen im Vergleich zu SAM-3. Abschließend analysieren wir häufige VQA-Fehler von MLLMs, um eine neuartige "Colon-Skill"-Prompting-Strategie einzuführen, die die Zero-Shot-Leistung der meisten MLLMs um bis zu 9,7 % verbessert. Der Datensatz und der Code sind unter https://abdullahamdi.com/colon-bench verfügbar.

English

Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predominantly focus on single-class polyp detection and lack the rich spatial, temporal, and linguistic annotations required to evaluate modern Multimodal Large Language Models (MLLMs). To address this critical gap, we introduce Colon-Bench, generated via a novel multi-stage agentic workflow. Our pipeline seamlessly integrates temporal proposals, bounding-box tracking, AI-driven visual confirmation, and human-in-the-loop review to scalably annotate full-procedure videos. The resulting verified benchmark is unprecedented in scope, encompassing 528 videos, 14 distinct lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions. We utilize Colon-Bench to rigorously evaluate state-of-the-art MLLMs across lesion classification, Open-Vocabulary Video Object Segmentation (OV-VOS), and video Visual Question Answering (VQA). The MLLM results demonstrate surprisingly high localization performance in medical domains compared to SAM-3. Finally, we analyze common VQA errors from MLLMs to introduce a novel "colon-skill" prompting strategy, improving zero-shot MLLM performance by up to 9.7% across most MLLMs. The dataset and the code are available at https://abdullahamdi.com/colon-bench .

Colon-Bench: Ein agentenbasierter Workflow für skalierbare Annotation dichter Läsionen in vollständigen Koloskopie-Videos

Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

Zusammenfassung

Support