Colon-Bench : Un flux de travail agentique pour l'annotation évolutive de lésions denses dans les vidéos de coloscopie complète

Résumé

Le dépistage précoce par coloscopie est essentiel pour la prévention du cancer colorectal, mais le développement de systèmes d'IA robustes pour ce domaine est entravé par le manque de jeux de données vidéo denses en annotations et de longues séquences. Les jeux de données existants se concentrent principalement sur la détection monoclasse des polypes et manquent des annotations spatiales, temporelles et linguistiques riches nécessaires pour évaluer les modèles de langage multimodaux (MLLM) modernes. Pour combler cette lacune critique, nous présentons Colon-Bench, généré via un nouveau workflow agentiel multi-étapes. Notre pipeline intègre de manière transparente des propositions temporelles, un suivi par boîtes englobantes, une confirmation visuelle par IA et une révision humaine pour annoter de manière évolutive des vidéos de procédures complètes. Le benchmark vérifié qui en résulte est sans précédent en termes d'étendue, comprenant 528 vidéos, 14 catégories de lésions distinctes (incluant polypes, ulcères et saignements), plus de 300 000 boîtes englobantes, 213 000 masques de segmentation et 133 000 mots de descriptions cliniques. Nous utilisons Colon-Bench pour évaluer rigoureusement les MLLM de pointe dans les domaines de la classification des lésions, de la segmentation vidéo d'objets en vocabulaire libre (OV-VOS) et des questions-réponses visuelles (VQA) sur vidéo. Les résultats des MLLM démontrent des performances de localisation étonnamment élevées dans les domaines médicaux par rapport à SAM-3. Enfin, nous analysons les erreurs courantes des MLLM en VQA pour introduire une nouvelle stratégie d'invite "colon-skill", améliorant les performances zero-shot des MLLM jusqu'à 9,7% pour la plupart des modèles. Le jeu de données et le code sont disponibles à l'adresse https://abdullahamdi.com/colon-bench.

English

Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predominantly focus on single-class polyp detection and lack the rich spatial, temporal, and linguistic annotations required to evaluate modern Multimodal Large Language Models (MLLMs). To address this critical gap, we introduce Colon-Bench, generated via a novel multi-stage agentic workflow. Our pipeline seamlessly integrates temporal proposals, bounding-box tracking, AI-driven visual confirmation, and human-in-the-loop review to scalably annotate full-procedure videos. The resulting verified benchmark is unprecedented in scope, encompassing 528 videos, 14 distinct lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions. We utilize Colon-Bench to rigorously evaluate state-of-the-art MLLMs across lesion classification, Open-Vocabulary Video Object Segmentation (OV-VOS), and video Visual Question Answering (VQA). The MLLM results demonstrate surprisingly high localization performance in medical domains compared to SAM-3. Finally, we analyze common VQA errors from MLLMs to introduce a novel "colon-skill" prompting strategy, improving zero-shot MLLM performance by up to 9.7% across most MLLMs. The dataset and the code are available at https://abdullahamdi.com/colon-bench .

Colon-Bench : Un flux de travail agentique pour l'annotation évolutive de lésions denses dans les vidéos de coloscopie complète

Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

Résumé

Support