ChatPaper.aiChatPaper

RetFiner: Ein Vision-Sprache-Verfeinerungsschema für retinale Basismodelle

RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models

June 27, 2025
Autoren: Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović
cs.AI

Zusammenfassung

Der Aufstieg von Bildgebungstechniken wie der optischen Kohärenztomographie (OCT) und Fortschritte im Bereich des Deep Learning (DL) haben es Klinikern und Forschern ermöglicht, die Stadieneinteilung von Netzhauterkrankungen zu optimieren. Ein beliebter DL-Ansatz ist das selbstüberwachte Lernen (SSL), bei dem Modelle aus großen Mengen ungelabelter Daten lernen und so kostspielige Annotationen vermeiden. SSL hat die Entwicklung von Foundation-Modellen (FMs) ermöglicht, große Modelle, die für eine Vielzahl von nachgelagerten Aufgaben eingesetzt werden können. Allerdings fehlt bestehenden FMs für OCT, die ausschließlich auf Bilddaten trainiert wurden, ein umfassendes und robustes semantisches Verständnis der Bilder, wie ihre Leistung bei nachgelagerten Aufgaben (insbesondere bei komplexen Aufgaben) zeigt. Daher benötigen sie eine überwachte Feinabstimmung (die möglicherweise nicht durchführbar ist), um sich besser an spezifische Anwendungen und Populationen anzupassen. Um dies zu adressieren, schlagen wir RetFiner vor, ein SSL-Vision-Language-Verfeinerungsschema, das die Repräsentationen bestehender FMs verbessert und ihre effiziente und direkte Anpassung an spezifische Populationen für eine verbesserte nachgelagerte Leistung ermöglicht. Unsere Methode nutzt eine Vielzahl von Trainingszielen, die den reichhaltigen Aufsichtssignal in Textdaten ausnutzen. Wir haben RetFiner an den retinalen FMs RETFound, UrFound und VisionFM getestet und signifikante Verbesserungen bei der Linear-Probing-Leistung in sieben hochdiversen OCT-Klassifikationsaufgaben festgestellt, mit durchschnittlichen Steigerungen von 5,8, 3,9 und 2,1 Prozentpunkten gegenüber ihren Baselines. Unser Code und unsere Modellgewichte sind öffentlich verfügbar unter https://github.com/ronnief1/RetFiner.
English
The rise of imaging techniques such as optical coherence tomography (OCT) and advances in deep learning (DL) have enabled clinicians and researchers to streamline retinal disease staging. A popular DL approach is self-supervised learning (SSL), where models learn from vast amounts of unlabeled data, avoiding costly annotation. SSL has allowed the development of foundation models (FMs), large models that can be used for a variety of downstream tasks. However, existing FMs for OCT, trained solely on image data, lack a comprehensive and robust semantic understanding of images, as evidenced by their downstream performance (especially for complex tasks), and thus require supervised fine-tuning (which may be unfeasible) to better adapt to specific applications and populations. To address this, we propose RetFiner, an SSL vision-language refinement scheme that improves the representations of existing FMs and enables their efficient and direct adaptation to specific populations for improved downstream performance. Our method uses a diverse set of training objectives which take advantage of the rich supervisory signal found in textual data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM, showing significant improvements in linear probing performance on seven highly diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1 percentage points over their baselines, respectively. Our code and model weights are publicly available at https://github.com/ronnief1/RetFiner.
PDF11June 30, 2025