MIRAGE: Modelo fundacional multimodal y benchmark para el análisis integral de imágenes de OCT retinal

Resumen

La inteligencia artificial (IA) se ha convertido en una herramienta fundamental para asistir a los clínicos en el análisis de imágenes oftálmicas, como la tomografía de coherencia óptica (OCT). Sin embargo, el desarrollo de modelos de IA suele requerir una extensa anotación, y los modelos existentes tienden a tener un rendimiento inferior en datos independientes y no vistos. Los modelos base (FMs, por sus siglas en inglés), grandes modelos de IA entrenados con vastos conjuntos de datos no etiquetados, han mostrado potencial para superar estos desafíos. No obstante, los FMs disponibles para oftalmología carecen de una validación extensa, especialmente para tareas de segmentación, y se centran en una única modalidad de imagen. En este contexto, proponemos MIRAGE, un nuevo FM multimodal para el análisis de imágenes de OCT y oftalmoscopia con láser de barrido (SLO). Además, proponemos un nuevo punto de referencia de evaluación con tareas de clasificación y segmentación de OCT/SLO. La comparación con FMs generales y especializados, así como con métodos de segmentación, muestra la superioridad de MIRAGE en ambos tipos de tareas, destacando su idoneidad como base para el desarrollo de sistemas de IA robustos para el análisis de imágenes de OCT retinal. Tanto MIRAGE como el punto de referencia de evaluación están disponibles públicamente: https://github.com/j-morano/MIRAGE.

English

Artificial intelligence (AI) has become a fundamental tool for assisting clinicians in analyzing ophthalmic images, such as optical coherence tomography (OCT). However, developing AI models often requires extensive annotation, and existing models tend to underperform on independent, unseen data. Foundation models (FMs), large AI models trained on vast unlabeled datasets, have shown promise in overcoming these challenges. Nonetheless, available FMs for ophthalmology lack extensive validation, especially for segmentation tasks, and focus on a single imaging modality. In this context, we propose MIRAGE, a novel multimodal FM for the analysis of OCT and scanning laser ophthalmoscopy (SLO) images. Additionally, we propose a new evaluation benchmark with OCT/SLO classification and segmentation tasks. The comparison with general and specialized FMs and segmentation methods shows the superiority of MIRAGE in both types of tasks, highlighting its suitability as a basis for the development of robust AI systems for retinal OCT image analysis. Both MIRAGE and the evaluation benchmark are publicly available: https://github.com/j-morano/MIRAGE.