OpenUS:自己適応型マスク付き対照学習による超音波画像解析のための完全オープンソース基盤モデル
OpenUS: A Fully Open-Source Foundation Model for Ultrasound Image Analysis via Self-Adaptive Masked Contrastive Learning
November 14, 2025
著者: Xiaoyu Zheng, Xu Chen, Awais Rauf, Qifan Fu, Benedetta Monosi, Felice Rivellese, Myles J. Lewis, Shaogang Gong, Gregory Slabaugh
cs.AI
要旨
超音波(US)は、その低コスト、携帯性、リアルタイム性、および電離放射線の不使用から、最も広く利用されている医用画像モダリティの一つである。しかし、超音波画像の解釈は依然として操作者への依存度が高く、解剖学的部位、撮影プロトコル、装置タイプによって大きく異なる。これらのばらつきに加え、スペックルノイズ、低コントラスト、標準化された注釈の不足といった特有の課題が、汎用性が高くラベル効率の良い超音波AIモデルの開発を妨げている。本論文では、大規模な公開データに基づき初めての再現性のあるオープンソースの超音波基盤モデルであるOpenUSを提案する。OpenUSは視覚Mambaバックボーンを採用し、画像全体の局所的および大域的な長距離依存関係を捕捉する。事前学習において豊富な特徴を抽出するため、対照学習とマスク画像モデリングを組み合わせた新しい自己適応型マスキングフレームワークを導入する。この戦略は教師の注意マップと生徒の再構成損失を統合し、臨床的に関連性の高いマスキングを適応的に洗練することで、事前学習の効果を高める。OpenUSはまた、動的学習スケジュールを適用し、事前学習プロセスの難易度を段階的に調整する。基盤モデルを構築するため、42の公開データセットから30万8千点以上の画像から成る、これまでで最大の公開超音波データセットを構築した。これには多様な解剖学的部位、施設、画像装置、疾患タイプが含まれる。事前学習済みのOpenUSモデルは、ラベル効率の良いファインチューニングのバックボーンとして機能させることで、特定の下流タスクに容易に適応可能である。コードはhttps://github.com/XZheng0427/OpenUS で公開されている。
English
Ultrasound (US) is one of the most widely used medical imaging modalities, thanks to its low cost, portability, real-time feedback, and absence of ionizing radiation. However, US image interpretation remains highly operator-dependent and varies significantly across anatomical regions, acquisition protocols, and device types. These variations, along with unique challenges such as speckle, low contrast, and limited standardized annotations, hinder the development of generalizable, label-efficient ultrasound AI models. In this paper, we propose OpenUS, the first reproducible, open-source ultrasound foundation model built on a large collection of public data. OpenUS employs a vision Mamba backbone, capturing both local and global long-range dependencies across the image. To extract rich features during pre-training, we introduce a novel self-adaptive masking framework that combines contrastive learning with masked image modeling. This strategy integrates the teacher's attention map with student reconstruction loss, adaptively refining clinically-relevant masking to enhance pre-training effectiveness. OpenUS also applies a dynamic learning schedule to progressively adjust the difficulty of the pre-training process. To develop the foundation model, we compile the largest to-date public ultrasound dataset comprising over 308K images from 42 publicly available datasets, covering diverse anatomical regions, institutions, imaging devices, and disease types. Our pre-trained OpenUS model can be easily adapted to specific downstream tasks by serving as a backbone for label-efficient fine-tuning. Code is available at https://github.com/XZheng0427/OpenUS.