RetFiner: Uno Schema di Affinamento Visione-Linguaggio per Modelli di Base Retinici
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models
June 27, 2025
Autori: Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović
cs.AI
Abstract
L'ascesa delle tecniche di imaging come la tomografia a coerenza ottica (OCT) e i progressi nel deep learning (DL) hanno permesso a clinici e ricercatori di semplificare la stadiazione delle malattie retiniche. Un approccio DL popolare è l'apprendimento auto-supervisionato (SSL), in cui i modelli apprendono da grandi quantità di dati non etichettati, evitando costose annotazioni. L'SSL ha permesso lo sviluppo di modelli di base (FMs), modelli di grandi dimensioni che possono essere utilizzati per una varietà di task downstream. Tuttavia, gli attuali FMs per OCT, addestrati esclusivamente su dati di immagini, mancano di una comprensione semantica completa e robusta delle immagini, come evidenziato dalle loro prestazioni downstream (soprattutto per task complessi), e richiedono quindi una messa a punto supervisionata (che potrebbe non essere fattibile) per adattarsi meglio a specifiche applicazioni e popolazioni. Per affrontare questo problema, proponiamo RetFiner, uno schema di raffinamento SSL visione-linguaggio che migliora le rappresentazioni degli FMs esistenti e ne consente un adattamento efficiente e diretto a popolazioni specifiche per migliorare le prestazioni downstream. Il nostro metodo utilizza un insieme diversificato di obiettivi di addestramento che sfruttano il ricco segnale di supervisione presente nei dati testuali. Abbiamo testato RetFiner sui FMs retinici RETFound, UrFound e VisionFM, mostrando miglioramenti significativi nelle prestazioni di linear probing su sette task di classificazione OCT altamente diversificati, con un aumento medio rispettivamente di 5,8, 3,9 e 2,1 punti percentuali rispetto alle loro baseline. Il nostro codice e i pesi del modello sono disponibili pubblicamente all'indirizzo https://github.com/ronnief1/RetFiner.
English
The rise of imaging techniques such as optical coherence tomography (OCT) and
advances in deep learning (DL) have enabled clinicians and researchers to
streamline retinal disease staging. A popular DL approach is self-supervised
learning (SSL), where models learn from vast amounts of unlabeled data,
avoiding costly annotation. SSL has allowed the development of foundation
models (FMs), large models that can be used for a variety of downstream tasks.
However, existing FMs for OCT, trained solely on image data, lack a
comprehensive and robust semantic understanding of images, as evidenced by
their downstream performance (especially for complex tasks), and thus require
supervised fine-tuning (which may be unfeasible) to better adapt to specific
applications and populations. To address this, we propose RetFiner, an SSL
vision-language refinement scheme that improves the representations of existing
FMs and enables their efficient and direct adaptation to specific populations
for improved downstream performance. Our method uses a diverse set of training
objectives which take advantage of the rich supervisory signal found in textual
data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM,
showing significant improvements in linear probing performance on seven highly
diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1
percentage points over their baselines, respectively. Our code and model
weights are publicly available at https://github.com/ronnief1/RetFiner.