ChatPaper.aiChatPaper

Avances en la Colonoscopia Inteligente

Frontiers in Intelligent Colonoscopy

October 22, 2024
Autores: Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan
cs.AI

Resumen

La colonoscopia es actualmente uno de los métodos de detección más sensibles para el cáncer colorrectal. Este estudio investiga las fronteras de las técnicas de colonoscopia inteligente y sus posibles implicaciones para aplicaciones médicas multimodales. Con este objetivo, comenzamos evaluando los paisajes actuales centrados en datos y modelos a través de cuatro tareas para la percepción de escenas colonoscópicas, que incluyen clasificación, detección, segmentación y comprensión visión-lenguaje. Esta evaluación nos permite identificar desafíos específicos del dominio y revela que la investigación multimodal en colonoscopia sigue abierta para una mayor exploración. Para abrazar la próxima era multimodal, establecemos tres iniciativas fundamentales: un conjunto de datos de ajuste de instrucciones multimodal a gran escala, ColonINST, un modelo de lenguaje multimodal diseñado para colonoscopia, ColonGPT, y un punto de referencia multimodal. Para facilitar el monitoreo continuo de este campo en rápida evolución, proporcionamos un sitio web público para las últimas actualizaciones: https://github.com/ai4colonoscopy/IntelliScope.
English
Colonoscopy is currently one of the most sensitive screening methods for colorectal cancer. This study investigates the frontiers of intelligent colonoscopy techniques and their prospective implications for multimodal medical applications. With this goal, we begin by assessing the current data-centric and model-centric landscapes through four tasks for colonoscopic scene perception, including classification, detection, segmentation, and vision-language understanding. This assessment enables us to identify domain-specific challenges and reveals that multimodal research in colonoscopy remains open for further exploration. To embrace the coming multimodal era, we establish three foundational initiatives: a large-scale multimodal instruction tuning dataset ColonINST, a colonoscopy-designed multimodal language model ColonGPT, and a multimodal benchmark. To facilitate ongoing monitoring of this rapidly evolving field, we provide a public website for the latest updates: https://github.com/ai4colonoscopy/IntelliScope.

Summary

AI-Generated Summary

PDF42November 16, 2024