RetFiner: Un Esquema de Refinamiento Visión-Lenguaje para Modelos Fundacionales de Retina
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models
June 27, 2025
Autores: Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović
cs.AI
Resumen
El auge de las técnicas de imagen como la tomografía de coherencia óptica (OCT) y los avances en el aprendizaje profundo (DL) han permitido a los clínicos e investigadores optimizar la clasificación de enfermedades retinianas. Un enfoque popular de DL es el aprendizaje autosupervisado (SSL), donde los modelos aprenden de grandes cantidades de datos no etiquetados, evitando costosas anotaciones. El SSL ha permitido el desarrollo de modelos base (FMs), modelos grandes que pueden utilizarse para una variedad de tareas posteriores. Sin embargo, los FMs existentes para OCT, entrenados únicamente con datos de imagen, carecen de una comprensión semántica integral y robusta de las imágenes, como lo evidencia su rendimiento en tareas posteriores (especialmente en tareas complejas), y por lo tanto requieren ajuste supervisado (que puede ser inviable) para adaptarse mejor a aplicaciones y poblaciones específicas. Para abordar esto, proponemos RetFiner, un esquema de refinamiento SSL visión-lenguaje que mejora las representaciones de los FMs existentes y permite su adaptación eficiente y directa a poblaciones específicas para un mejor rendimiento en tareas posteriores. Nuestro método utiliza un conjunto diverso de objetivos de entrenamiento que aprovechan la rica señal de supervisión presente en los datos textuales. Probamos RetFiner en los FMs retinianos RETFound, UrFound y VisionFM, mostrando mejoras significativas en el rendimiento de sondeo lineal en siete tareas de clasificación de OCT altamente diversas, con un aumento promedio de 5.8, 3.9 y 2.1 puntos porcentuales sobre sus líneas base, respectivamente. Nuestro código y pesos del modelo están disponibles públicamente en https://github.com/ronnief1/RetFiner.
English
The rise of imaging techniques such as optical coherence tomography (OCT) and
advances in deep learning (DL) have enabled clinicians and researchers to
streamline retinal disease staging. A popular DL approach is self-supervised
learning (SSL), where models learn from vast amounts of unlabeled data,
avoiding costly annotation. SSL has allowed the development of foundation
models (FMs), large models that can be used for a variety of downstream tasks.
However, existing FMs for OCT, trained solely on image data, lack a
comprehensive and robust semantic understanding of images, as evidenced by
their downstream performance (especially for complex tasks), and thus require
supervised fine-tuning (which may be unfeasible) to better adapt to specific
applications and populations. To address this, we propose RetFiner, an SSL
vision-language refinement scheme that improves the representations of existing
FMs and enables their efficient and direct adaptation to specific populations
for improved downstream performance. Our method uses a diverse set of training
objectives which take advantage of the rich supervisory signal found in textual
data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM,
showing significant improvements in linear probing performance on seven highly
diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1
percentage points over their baselines, respectively. Our code and model
weights are publicly available at https://github.com/ronnief1/RetFiner.