ChatPaper.aiChatPaper

RetFiner: Схема уточнения на основе зрения и языка для базовых моделей анализа сетчатки

RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models

June 27, 2025
Авторы: Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović
cs.AI

Аннотация

Развитие методов визуализации, таких как оптическая когерентная томография (ОКТ), и прогресс в области глубокого обучения (DL) позволили клиницистам и исследователям упростить стадирование заболеваний сетчатки. Одним из популярных подходов в DL является самообучение (SSL), при котором модели обучаются на больших объемах немаркированных данных, избегая дорогостоящей аннотации. SSL способствовал разработке базовых моделей (FMs) — крупных моделей, которые могут быть использованы для решения различных задач. Однако существующие FMs для ОКТ, обученные исключительно на изображениях, демонстрируют недостаточное и неполное семантическое понимание изображений, что подтверждается их производительностью на задачах (особенно сложных), и, следовательно, требуют контролируемой дообучки (что может быть неосуществимо) для лучшей адаптации к конкретным приложениям и популяциям. Для решения этой проблемы мы предлагаем RetFiner — схему SSL-уточнения на основе визуально-текстовых данных, которая улучшает представления существующих FMs и позволяет их эффективную и прямую адаптацию к конкретным популяциям для повышения производительности на задачах. Наш метод использует разнообразные обучающие цели, которые учитывают богатый сигнал надзора, содержащийся в текстовых данных. Мы протестировали RetFiner на базовых моделях для сетчатки RETFound, UrFound и VisionFM, показав значительное улучшение производительности при линейном зондировании на семи разнообразных задачах классификации ОКТ, с увеличением среднего показателя на 5,8, 3,9 и 2,1 процентных пункта по сравнению с их базовыми значениями соответственно. Наш код и веса модели доступны по адресу https://github.com/ronnief1/RetFiner.
English
The rise of imaging techniques such as optical coherence tomography (OCT) and advances in deep learning (DL) have enabled clinicians and researchers to streamline retinal disease staging. A popular DL approach is self-supervised learning (SSL), where models learn from vast amounts of unlabeled data, avoiding costly annotation. SSL has allowed the development of foundation models (FMs), large models that can be used for a variety of downstream tasks. However, existing FMs for OCT, trained solely on image data, lack a comprehensive and robust semantic understanding of images, as evidenced by their downstream performance (especially for complex tasks), and thus require supervised fine-tuning (which may be unfeasible) to better adapt to specific applications and populations. To address this, we propose RetFiner, an SSL vision-language refinement scheme that improves the representations of existing FMs and enables their efficient and direct adaptation to specific populations for improved downstream performance. Our method uses a diverse set of training objectives which take advantage of the rich supervisory signal found in textual data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM, showing significant improvements in linear probing performance on seven highly diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1 percentage points over their baselines, respectively. Our code and model weights are publicly available at https://github.com/ronnief1/RetFiner.
PDF11June 30, 2025