RetFiner: Een Vision-Language Verfijningsschema voor Retinale Fundamentmodellen
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models
June 27, 2025
Auteurs: Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović
cs.AI
Samenvatting
De opkomst van beeldvormingstechnieken zoals optische coherentietomografie (OCT) en de vooruitgang in deep learning (DL) hebben clinici en onderzoekers in staat gesteld om het stadium van netvliesaandoeningen efficiënter te bepalen. Een populaire DL-benadering is zelfgesuperviseerd leren (SSL), waarbij modellen leren van grote hoeveelheden ongelabelde data, waardoor kostbare annotaties worden vermeden. SSL heeft de ontwikkeling van foundationmodellen (FMs) mogelijk gemaakt, grote modellen die voor verschillende downstreamtaken kunnen worden gebruikt. Bestaande FMs voor OCT, die uitsluitend op beelddata zijn getraind, missen echter een uitgebreid en robuust semantisch begrip van beelden, wat blijkt uit hun prestaties bij downstreamtaken (met name voor complexe taken), en vereisen daarom gesuperviseerde fine-tuning (wat mogelijk niet haalbaar is) om zich beter aan te passen aan specifieke toepassingen en populaties. Om dit aan te pakken, stellen we RetFiner voor, een SSL vision-language verfijningsschema dat de representaties van bestaande FMs verbetert en hun efficiënte en directe aanpassing aan specifieke populaties mogelijk maakt voor betere downstreamprestaties. Onze methode maakt gebruik van een diverse set trainingsdoelen die gebruikmaken van het rijke supervisiesignaal in tekstuele data. We hebben RetFiner getest op de retinale FMs RETFound, UrFound en VisionFM, waarbij significante verbeteringen werden aangetoond in de lineaire probingprestaties op zeven zeer diverse OCT-classificatietaken, met een gemiddelde stijging van respectievelijk 5,8, 3,9 en 2,1 procentpunt ten opzichte van hun baselines. Onze code en modelgewichten zijn openbaar beschikbaar op https://github.com/ronnief1/RetFiner.
English
The rise of imaging techniques such as optical coherence tomography (OCT) and
advances in deep learning (DL) have enabled clinicians and researchers to
streamline retinal disease staging. A popular DL approach is self-supervised
learning (SSL), where models learn from vast amounts of unlabeled data,
avoiding costly annotation. SSL has allowed the development of foundation
models (FMs), large models that can be used for a variety of downstream tasks.
However, existing FMs for OCT, trained solely on image data, lack a
comprehensive and robust semantic understanding of images, as evidenced by
their downstream performance (especially for complex tasks), and thus require
supervised fine-tuning (which may be unfeasible) to better adapt to specific
applications and populations. To address this, we propose RetFiner, an SSL
vision-language refinement scheme that improves the representations of existing
FMs and enables their efficient and direct adaptation to specific populations
for improved downstream performance. Our method uses a diverse set of training
objectives which take advantage of the rich supervisory signal found in textual
data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM,
showing significant improvements in linear probing performance on seven highly
diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1
percentage points over their baselines, respectively. Our code and model
weights are publicly available at https://github.com/ronnief1/RetFiner.