RetFiner : Un schéma de raffinement vision-langage pour les modèles fondateurs en rétinographie
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models
June 27, 2025
Auteurs: Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović
cs.AI
Résumé
L'essor des techniques d'imagerie telles que la tomographie par cohérence optique (OCT) et les avancées en apprentissage profond (DL) ont permis aux cliniciens et aux chercheurs de rationaliser la stadification des maladies rétiniennes. Une approche DL populaire est l'apprentissage auto-supervisé (SSL), où les modèles apprennent à partir de vastes quantités de données non étiquetées, évitant ainsi l'annotation coûteuse. Le SSL a permis le développement de modèles de base (FMs), des modèles de grande taille qui peuvent être utilisés pour diverses tâches en aval. Cependant, les FMs existants pour l'OCT, entraînés uniquement sur des données d'images, manquent d'une compréhension sémantique complète et robuste des images, comme en témoigne leur performance en aval (en particulier pour les tâches complexes), et nécessitent donc un ajustement supervisé (qui peut être irréalisable) pour mieux s'adapter à des applications et populations spécifiques. Pour remédier à cela, nous proposons RetFiner, un schéma de raffinement SSL vision-langage qui améliore les représentations des FMs existants et permet leur adaptation efficace et directe à des populations spécifiques pour une meilleure performance en aval. Notre méthode utilise un ensemble diversifié d'objectifs d'entraînement qui tirent parti du riche signal de supervision trouvé dans les données textuelles. Nous avons testé RetFiner sur les FMs rétiniens RETFound, UrFound et VisionFM, montrant des améliorations significatives dans la performance de sondage linéaire sur sept tâches de classification OCT très diversifiées, avec une augmentation moyenne de 5,8, 3,9 et 2,1 points de pourcentage par rapport à leurs lignes de base, respectivement. Notre code et les poids des modèles sont disponibles publiquement à l'adresse https://github.com/ronnief1/RetFiner.
English
The rise of imaging techniques such as optical coherence tomography (OCT) and
advances in deep learning (DL) have enabled clinicians and researchers to
streamline retinal disease staging. A popular DL approach is self-supervised
learning (SSL), where models learn from vast amounts of unlabeled data,
avoiding costly annotation. SSL has allowed the development of foundation
models (FMs), large models that can be used for a variety of downstream tasks.
However, existing FMs for OCT, trained solely on image data, lack a
comprehensive and robust semantic understanding of images, as evidenced by
their downstream performance (especially for complex tasks), and thus require
supervised fine-tuning (which may be unfeasible) to better adapt to specific
applications and populations. To address this, we propose RetFiner, an SSL
vision-language refinement scheme that improves the representations of existing
FMs and enables their efficient and direct adaptation to specific populations
for improved downstream performance. Our method uses a diverse set of training
objectives which take advantage of the rich supervisory signal found in textual
data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM,
showing significant improvements in linear probing performance on seven highly
diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1
percentage points over their baselines, respectively. Our code and model
weights are publicly available at https://github.com/ronnief1/RetFiner.