Colon-Bench: Агентный рабочий процесс для масштабируемой разметки плотных поражений в видео полной процедуры колоноскопии

Аннотация

Ранний скрининг с помощью колоноскопии имеет решающее значение для профилактики рака толстой кишки, однако разработка надежных систем искусственного интеллекта для этой области затруднена из-за отсутствия плотно размеченных наборов данных в виде длинных видео последовательностей. Существующие наборы данных в основном сосредоточены на обнаружении полипов одного класса и не содержат богатых пространственных, временных и языковых аннотаций, необходимых для оценки современных мультимодальных больших языковых моделей (MLLM). Чтобы восполнить этот критический пробел, мы представляем Colon-Bench, созданный с помощью нового многоэтапного агентного рабочего процесса. Наш конвейер seamlessly интегрирует временные предложения, отслеживание ограничивающих рамок, визуальную проверку на основе ИИ и проверку с участием человека для масштабируемой разметки видео полных процедур. Полученный проверенный бенчмарк не имеет аналогов по своему охвату: он включает 528 видео, 14 различных категорий поражений (включая полипы, язвы и кровотечения), более 300 000 ограничивающих рамок, 213 000 масок сегментации и 133 000 слов клинических описаний. Мы используем Colon-Bench для тщательной оценки передовых MLLM по таким задачам, как классификация поражений, открытая словарная видео сегментация объектов (OV-VOS) и визуальный вопросно-ответный анализ видео (VQA). Результаты MLLM демонстрируют удивительно высокую производительность локализации в медицинских областях по сравнению с SAM-3. Наконец, мы анализируем типичные ошибки MLLM в задачах VQA и представляем новую стратегию промптинга "colon-skill", которая улучшает zero-shot производительность MLLM до 9.7% для большинства моделей. Набор данных и код доступны по адресу https://abdullahamdi.com/colon-bench.

English

Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predominantly focus on single-class polyp detection and lack the rich spatial, temporal, and linguistic annotations required to evaluate modern Multimodal Large Language Models (MLLMs). To address this critical gap, we introduce Colon-Bench, generated via a novel multi-stage agentic workflow. Our pipeline seamlessly integrates temporal proposals, bounding-box tracking, AI-driven visual confirmation, and human-in-the-loop review to scalably annotate full-procedure videos. The resulting verified benchmark is unprecedented in scope, encompassing 528 videos, 14 distinct lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions. We utilize Colon-Bench to rigorously evaluate state-of-the-art MLLMs across lesion classification, Open-Vocabulary Video Object Segmentation (OV-VOS), and video Visual Question Answering (VQA). The MLLM results demonstrate surprisingly high localization performance in medical domains compared to SAM-3. Finally, we analyze common VQA errors from MLLMs to introduce a novel "colon-skill" prompting strategy, improving zero-shot MLLM performance by up to 9.7% across most MLLMs. The dataset and the code are available at https://abdullahamdi.com/colon-bench .

Colon-Bench: Агентный рабочий процесс для масштабируемой разметки плотных поражений в видео полной процедуры колоноскопии

Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

Аннотация

Support