RetFiner: Um Esquema de Refinamento Visão-Linguagem para Modelos de Base em Retina

Resumo

O surgimento de técnicas de imagem, como a tomografia de coerência óptica (OCT), e os avanços em aprendizado profundo (DL) permitiram que clínicos e pesquisadores otimizassem a classificação de estágios de doenças retinianas. Uma abordagem popular de DL é o aprendizado auto-supervisionado (SSL), no qual os modelos aprendem a partir de grandes quantidades de dados não rotulados, evitando a custosa anotação manual. O SSL possibilitou o desenvolvimento de modelos de base (FMs), modelos de grande escala que podem ser usados para uma variedade de tarefas subsequentes. No entanto, os FMs existentes para OCT, treinados exclusivamente com dados de imagem, carecem de uma compreensão semântica abrangente e robusta das imagens, como evidenciado por seu desempenho em tarefas subsequentes (especialmente em tarefas complexas), e, portanto, exigem ajuste supervisionado (que pode ser inviável) para melhor se adaptarem a aplicações e populações específicas. Para resolver isso, propomos o RetFiner, um esquema de refinamento SSL visão-linguagem que melhora as representações dos FMs existentes e permite sua adaptação eficiente e direta a populações específicas para um desempenho aprimorado em tarefas subsequentes. Nosso método utiliza um conjunto diversificado de objetivos de treinamento que aproveitam o sinal supervisionado rico encontrado em dados textuais. Testamos o RetFiner nos FMs retinianos RETFound, UrFound e VisionFM, mostrando melhorias significativas no desempenho de sondagem linear em sete tarefas de classificação de OCT altamente diversificadas, com aumentos médios de 5,8, 3,9 e 2,1 pontos percentuais em relação às suas linhas de base, respectivamente. Nosso código e pesos dos modelos estão disponíveis publicamente em https://github.com/ronnief1/RetFiner.

English

The rise of imaging techniques such as optical coherence tomography (OCT) and advances in deep learning (DL) have enabled clinicians and researchers to streamline retinal disease staging. A popular DL approach is self-supervised learning (SSL), where models learn from vast amounts of unlabeled data, avoiding costly annotation. SSL has allowed the development of foundation models (FMs), large models that can be used for a variety of downstream tasks. However, existing FMs for OCT, trained solely on image data, lack a comprehensive and robust semantic understanding of images, as evidenced by their downstream performance (especially for complex tasks), and thus require supervised fine-tuning (which may be unfeasible) to better adapt to specific applications and populations. To address this, we propose RetFiner, an SSL vision-language refinement scheme that improves the representations of existing FMs and enables their efficient and direct adaptation to specific populations for improved downstream performance. Our method uses a diverse set of training objectives which take advantage of the rich supervisory signal found in textual data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM, showing significant improvements in linear probing performance on seven highly diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1 percentage points over their baselines, respectively. Our code and model weights are publicly available at https://github.com/ronnief1/RetFiner.

RetFiner: Um Esquema de Refinamento Visão-Linguagem para Modelos de Base em Retina

RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models

Resumo

Support