MIRAGE: Modelo de base multimodal e benchmark para análise abrangente de imagens de OCT retiniana
MIRAGE: Multimodal foundation model and benchmark for comprehensive retinal OCT image analysis
June 10, 2025
Autores: José Morano, Botond Fazekas, Emese Sükei, Ronald Fecso, Taha Emre, Markus Gumpinger, Georg Faustmann, Marzieh Oghbaie, Ursula Schmidt-Erfurth, Hrvoje Bogunović
cs.AI
Resumo
A inteligência artificial (IA) tornou-se uma ferramenta fundamental para auxiliar clínicos na análise de imagens oftalmológicas, como a tomografia de coerência óptica (OCT). No entanto, o desenvolvimento de modelos de IA frequentemente requer anotações extensas, e os modelos existentes tendem a ter desempenho inferior em dados independentes e não vistos anteriormente. Modelos de base (Foundation Models - FMs), grandes modelos de IA treinados em vastos conjuntos de dados não rotulados, têm mostrado potencial para superar esses desafios. No entanto, os FMs disponíveis para oftalmologia carecem de validação extensa, especialmente para tarefas de segmentação, e se concentram em uma única modalidade de imagem. Nesse contexto, propomos o MIRAGE, um novo FM multimodal para a análise de imagens de OCT e oftalmoscopia de varredura a laser (SLO). Além disso, propomos um novo benchmark de avaliação com tarefas de classificação e segmentação de OCT/SLO. A comparação com FMs gerais e especializados e métodos de segmentação demonstra a superioridade do MIRAGE em ambos os tipos de tarefas, destacando sua adequação como base para o desenvolvimento de sistemas de IA robustos para análise de imagens de OCT retiniano. Tanto o MIRAGE quanto o benchmark de avaliação estão disponíveis publicamente: https://github.com/j-morano/MIRAGE.
English
Artificial intelligence (AI) has become a fundamental tool for assisting
clinicians in analyzing ophthalmic images, such as optical coherence tomography
(OCT). However, developing AI models often requires extensive annotation, and
existing models tend to underperform on independent, unseen data. Foundation
models (FMs), large AI models trained on vast unlabeled datasets, have shown
promise in overcoming these challenges. Nonetheless, available FMs for
ophthalmology lack extensive validation, especially for segmentation tasks, and
focus on a single imaging modality. In this context, we propose MIRAGE, a novel
multimodal FM for the analysis of OCT and scanning laser ophthalmoscopy (SLO)
images. Additionally, we propose a new evaluation benchmark with OCT/SLO
classification and segmentation tasks. The comparison with general and
specialized FMs and segmentation methods shows the superiority of MIRAGE in
both types of tasks, highlighting its suitability as a basis for the
development of robust AI systems for retinal OCT image analysis. Both MIRAGE
and the evaluation benchmark are publicly available:
https://github.com/j-morano/MIRAGE.