RetFiner: Un Esquema de Refinamiento Visión-Lenguaje para Modelos Fundacionales de Retina

Resumen

El auge de las técnicas de imagen como la tomografía de coherencia óptica (OCT) y los avances en el aprendizaje profundo (DL) han permitido a los clínicos e investigadores optimizar la clasificación de enfermedades retinianas. Un enfoque popular de DL es el aprendizaje autosupervisado (SSL), donde los modelos aprenden de grandes cantidades de datos no etiquetados, evitando costosas anotaciones. El SSL ha permitido el desarrollo de modelos base (FMs), modelos grandes que pueden utilizarse para una variedad de tareas posteriores. Sin embargo, los FMs existentes para OCT, entrenados únicamente con datos de imagen, carecen de una comprensión semántica integral y robusta de las imágenes, como lo evidencia su rendimiento en tareas posteriores (especialmente en tareas complejas), y por lo tanto requieren ajuste supervisado (que puede ser inviable) para adaptarse mejor a aplicaciones y poblaciones específicas. Para abordar esto, proponemos RetFiner, un esquema de refinamiento SSL visión-lenguaje que mejora las representaciones de los FMs existentes y permite su adaptación eficiente y directa a poblaciones específicas para un mejor rendimiento en tareas posteriores. Nuestro método utiliza un conjunto diverso de objetivos de entrenamiento que aprovechan la rica señal de supervisión presente en los datos textuales. Probamos RetFiner en los FMs retinianos RETFound, UrFound y VisionFM, mostrando mejoras significativas en el rendimiento de sondeo lineal en siete tareas de clasificación de OCT altamente diversas, con un aumento promedio de 5.8, 3.9 y 2.1 puntos porcentuales sobre sus líneas base, respectivamente. Nuestro código y pesos del modelo están disponibles públicamente en https://github.com/ronnief1/RetFiner.

English

The rise of imaging techniques such as optical coherence tomography (OCT) and advances in deep learning (DL) have enabled clinicians and researchers to streamline retinal disease staging. A popular DL approach is self-supervised learning (SSL), where models learn from vast amounts of unlabeled data, avoiding costly annotation. SSL has allowed the development of foundation models (FMs), large models that can be used for a variety of downstream tasks. However, existing FMs for OCT, trained solely on image data, lack a comprehensive and robust semantic understanding of images, as evidenced by their downstream performance (especially for complex tasks), and thus require supervised fine-tuning (which may be unfeasible) to better adapt to specific applications and populations. To address this, we propose RetFiner, an SSL vision-language refinement scheme that improves the representations of existing FMs and enables their efficient and direct adaptation to specific populations for improved downstream performance. Our method uses a diverse set of training objectives which take advantage of the rich supervisory signal found in textual data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM, showing significant improvements in linear probing performance on seven highly diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1 percentage points over their baselines, respectively. Our code and model weights are publicly available at https://github.com/ronnief1/RetFiner.

RetFiner: Un Esquema de Refinamiento Visión-Lenguaje para Modelos Fundacionales de Retina

RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models

Resumen

Support