RetFiner: 網膜基盤モデルのための視覚-言語精緻化スキーム
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models
June 27, 2025
著者: Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović
cs.AI
要旨
光干渉断層計(OCT)などの画像技術の進展と、深層学習(DL)の進歩により、臨床医や研究者は網膜疾患のステージングを効率化できるようになった。特に注目されているDLアプローチの一つが自己教師あり学習(SSL)であり、この手法ではモデルが大量のラベルなしデータから学習し、コストのかかるアノテーションを回避する。SSLにより、基盤モデル(FM)と呼ばれる、様々な下流タスクに利用可能な大規模モデルの開発が可能となった。しかし、既存のOCT用FMは画像データのみで学習されており、画像の包括的かつ堅牢な意味理解が欠如しており、特に複雑なタスクにおける下流性能がそれを示している。そのため、特定のアプリケーションや集団に適応させるためには、教師ありの微調整が必要となる場合があるが、これは実現が困難な場合もある。この問題を解決するため、我々はRetFinerを提案する。これは、既存のFMの表現を改善し、特定の集団に効率的かつ直接的に適応させ、下流性能を向上させるSSLの視覚-言語精緻化スキームである。我々の手法は、テキストデータに含まれる豊富な教師信号を活用した多様な学習目標を使用する。RetFinerを網膜FMであるRETFound、UrFound、VisionFMでテストし、7つの多様なOCT分類タスクにおいて、それぞれベースラインに対して平均5.8、3.9、2.1パーセントポイントの性能向上を示した。我々のコードとモデル重みはhttps://github.com/ronnief1/RetFinerで公開されている。
English
The rise of imaging techniques such as optical coherence tomography (OCT) and
advances in deep learning (DL) have enabled clinicians and researchers to
streamline retinal disease staging. A popular DL approach is self-supervised
learning (SSL), where models learn from vast amounts of unlabeled data,
avoiding costly annotation. SSL has allowed the development of foundation
models (FMs), large models that can be used for a variety of downstream tasks.
However, existing FMs for OCT, trained solely on image data, lack a
comprehensive and robust semantic understanding of images, as evidenced by
their downstream performance (especially for complex tasks), and thus require
supervised fine-tuning (which may be unfeasible) to better adapt to specific
applications and populations. To address this, we propose RetFiner, an SSL
vision-language refinement scheme that improves the representations of existing
FMs and enables their efficient and direct adaptation to specific populations
for improved downstream performance. Our method uses a diverse set of training
objectives which take advantage of the rich supervisory signal found in textual
data. We tested RetFiner on the retinal FMs RETFound, UrFound, and VisionFM,
showing significant improvements in linear probing performance on seven highly
diverse OCT classification tasks, with an average increase of 5.8, 3.9, and 2.1
percentage points over their baselines, respectively. Our code and model
weights are publicly available at https://github.com/ronnief1/RetFiner.