RetFiner: 망막 기초 모델을 위한 시각-언어 정제 기법
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models
June 27, 2025
저자: Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović
cs.AI
초록
광간섭단층촬영(OCT)과 같은 영상 기술의 발전과 딥러닝(DL)의 진보는 임상의와 연구자들이 망막 질환 단계를 효율적으로 분류할 수 있게 해주었다. 이 중에서도 자기지도학습(SSL)은 대량의 라벨이 없는 데이터를 통해 모델을 학습시켜 비용이 많이 드는 주석 작업을 피할 수 있는 인기 있는 DL 접근법이다. SSL은 다양한 하위 작업에 사용할 수 있는 대형 모델인 파운데이션 모델(FMs)의 개발을 가능하게 했다. 그러나 OCT를 위해 단순히 이미지 데이터만으로 학습된 기존 FMs는 이미지에 대한 포괄적이고 강력한 의미론적 이해가 부족하며, 이는 특히 복잡한 작업에서의 하위 성능으로 입증된다. 따라서 특정 응용 프로그램 및 인구에 더 잘 적응하기 위해 지도 미세 조정이 필요할 수 있지만, 이는 실현 가능하지 않을 수도 있다. 이를 해결하기 위해, 우리는 RetFiner를 제안한다. RetFiner는 기존 FMs의 표현을 개선하고 특정 인구에 대한 효율적이고 직접적인 적응을 가능하게 하여 하위 성능을 향상시키는 SSL 비전-언어 정제 기법이다. 우리의 방법은 텍스트 데이터에서 발견되는 풍부한 감독 신호를 활용하는 다양한 훈련 목표를 사용한다. 우리는 RetFiner를 망막 FMs인 RETFound, UrFound, VisionFM에 테스트하여, 7가지 매우 다양한 OCT 분류 작업에서 각각 베이스라인 대비 평균 5.8, 3.9, 2.1% 포인트의 성능 향상을 보였다. 우리의 코드와 모델 가중치는 https://github.com/ronnief1/RetFiner에서 공개적으로 이용 가능하다.
English
The rise of imaging techniques such as optical coherence tomography (OCT) and
advances in deep learning (DL) have enabled clinicians and researchers to
streamline retinal disease staging. A popular DL approach is self-supervised
learning (SSL), where models learn from vast amounts of unlabeled data,
avoiding costly annotation. SSL has allowed the development of foundation
models (FMs), large models that can be used for a variety of downstream tasks.
However, existing FMs for OCT, trained solely on image data, lack a
comprehensive and robust semantic understanding of images, as evidenced by
their downstream performance (especially for complex tasks), and thus require
supervised fine-tuning (which may be unfeasible) to better adapt to specific
applications and populations. To address this, we propose RetFiner, an SSL
vision-language refinement scheme that improves the representations of existing
FMs and enables their efficient and direct adaptation to specific populations
for improved downstream performance. Our method uses a diverse set of training
objectives which take advantage of the rich supervisory signal found in textual
data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM,
showing significant improvements in linear probing performance on seven highly
diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1
percentage points over their baselines, respectively. Our code and model
weights are publicly available at https://github.com/ronnief1/RetFiner.