RetFiner: Um Esquema de Refinamento Visão-Linguagem para Modelos de Base em Retina
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models
June 27, 2025
Autores: Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović
cs.AI
Resumo
O surgimento de técnicas de imagem, como a tomografia de coerência óptica (OCT), e os avanços em aprendizado profundo (DL) permitiram que clínicos e pesquisadores otimizassem a classificação de estágios de doenças retinianas. Uma abordagem popular de DL é o aprendizado auto-supervisionado (SSL), no qual os modelos aprendem a partir de grandes quantidades de dados não rotulados, evitando a custosa anotação manual. O SSL possibilitou o desenvolvimento de modelos de base (FMs), modelos de grande escala que podem ser usados para uma variedade de tarefas subsequentes. No entanto, os FMs existentes para OCT, treinados exclusivamente com dados de imagem, carecem de uma compreensão semântica abrangente e robusta das imagens, como evidenciado por seu desempenho em tarefas subsequentes (especialmente em tarefas complexas), e, portanto, exigem ajuste supervisionado (que pode ser inviável) para melhor se adaptarem a aplicações e populações específicas. Para resolver isso, propomos o RetFiner, um esquema de refinamento SSL visão-linguagem que melhora as representações dos FMs existentes e permite sua adaptação eficiente e direta a populações específicas para um desempenho aprimorado em tarefas subsequentes. Nosso método utiliza um conjunto diversificado de objetivos de treinamento que aproveitam o sinal supervisionado rico encontrado em dados textuais. Testamos o RetFiner nos FMs retinianos RETFound, UrFound e VisionFM, mostrando melhorias significativas no desempenho de sondagem linear em sete tarefas de classificação de OCT altamente diversificadas, com aumentos médios de 5,8, 3,9 e 2,1 pontos percentuais em relação às suas linhas de base, respectivamente. Nosso código e pesos dos modelos estão disponíveis publicamente em https://github.com/ronnief1/RetFiner.
English
The rise of imaging techniques such as optical coherence tomography (OCT) and
advances in deep learning (DL) have enabled clinicians and researchers to
streamline retinal disease staging. A popular DL approach is self-supervised
learning (SSL), where models learn from vast amounts of unlabeled data,
avoiding costly annotation. SSL has allowed the development of foundation
models (FMs), large models that can be used for a variety of downstream tasks.
However, existing FMs for OCT, trained solely on image data, lack a
comprehensive and robust semantic understanding of images, as evidenced by
their downstream performance (especially for complex tasks), and thus require
supervised fine-tuning (which may be unfeasible) to better adapt to specific
applications and populations. To address this, we propose RetFiner, an SSL
vision-language refinement scheme that improves the representations of existing
FMs and enables their efficient and direct adaptation to specific populations
for improved downstream performance. Our method uses a diverse set of training
objectives which take advantage of the rich supervisory signal found in textual
data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM,
showing significant improvements in linear probing performance on seven highly
diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1
percentage points over their baselines, respectively. Our code and model
weights are publicly available at https://github.com/ronnief1/RetFiner.