OpenUS: 자가 적응형 마스크 대조 학습을 통한 초음파 영상 분석용 완전 오픈소스 기반 모델
OpenUS: A Fully Open-Source Foundation Model for Ultrasound Image Analysis via Self-Adaptive Masked Contrastive Learning
November 14, 2025
저자: Xiaoyu Zheng, Xu Chen, Awais Rauf, Qifan Fu, Benedetta Monosi, Felice Rivellese, Myles J. Lewis, Shaogang Gong, Gregory Slabaugh
cs.AI
초록
초음파(Ultrasound, US)는 낮은 비용, 휴대성, 실시간 피드백, 이온화 방사선 부재 등의 장점으로 가장 널리 사용되는 의료 영상 기술 중 하나입니다. 그러나 초음파 영상 해석은 여전히 운영자에 크게 의존적이며, 해부학적 부위, 획득 프로토콜, 장비 유형에 따라 현저한 차이를 보입니다. 이러한 변동성과 더불어 스페클(speckle), 낮은 대비, 제한된 표준화 주석 등 고유한 과제들로 인해 일반화 가능하고 레이블 효율적인 초음파 AI 모델 개발이 저해되고 있습니다. 본 논문에서는 공개 데이터 대규모 컬렉션을 기반으로 구축된 최초의 재현 가능한 오픈소스 초음파 파운데이션 모델인 OpenUS를 제안합니다. OpenUS는 비전 맘바(Vision Mamba) 백본을 사용하여 이미지 전체의 지역적 및 전역적 장거리 종속성을 포착합니다. 사전 훈련 중 풍부한 특징을 추출하기 위해, 대조 학습(contrastive learning)과 마스크 이미지 모델링(masked image modeling)을 결합한 새로운 자체 적응 마스킹 프레임워크를 도입했습니다. 이 전략은 교사(teacher)의 주의 맵(attention map)과 학생(student)의 재구성 손실을 통합하여 임상적으로 관련성 높은 마스킹을 적응적으로 정제함으로써 사전 훈련 효과를 향상시킵니다. OpenUS는 또한 동적 학습 스케줄을 적용하여 사전 훈련 과정의 난이도를 점진적으로 조정합니다. 파운데이션 모델을 개발하기 위해, 우리는 다양한 해부학적 부위, 기관, 영상 장치, 질병 유형을 포함하는 42개의 공개 데이터셋으로부터 30만 8천 장 이상의 이미지로 구성된 역대 최대 규모의 공개 초음파 데이터셋을 구축했습니다. 사전 훈련된 OpenUS 모델은 레이블 효율적 미세 조정(fine-tuning)을 위한 백본으로 활용함으로써 특정 다운스트림 작업에 쉽게 적용될 수 있습니다. 코드는 https://github.com/XZheng0427/OpenUS에서 확인할 수 있습니다.
English
Ultrasound (US) is one of the most widely used medical imaging modalities, thanks to its low cost, portability, real-time feedback, and absence of ionizing radiation. However, US image interpretation remains highly operator-dependent and varies significantly across anatomical regions, acquisition protocols, and device types. These variations, along with unique challenges such as speckle, low contrast, and limited standardized annotations, hinder the development of generalizable, label-efficient ultrasound AI models. In this paper, we propose OpenUS, the first reproducible, open-source ultrasound foundation model built on a large collection of public data. OpenUS employs a vision Mamba backbone, capturing both local and global long-range dependencies across the image. To extract rich features during pre-training, we introduce a novel self-adaptive masking framework that combines contrastive learning with masked image modeling. This strategy integrates the teacher's attention map with student reconstruction loss, adaptively refining clinically-relevant masking to enhance pre-training effectiveness. OpenUS also applies a dynamic learning schedule to progressively adjust the difficulty of the pre-training process. To develop the foundation model, we compile the largest to-date public ultrasound dataset comprising over 308K images from 42 publicly available datasets, covering diverse anatomical regions, institutions, imaging devices, and disease types. Our pre-trained OpenUS model can be easily adapted to specific downstream tasks by serving as a backbone for label-efficient fine-tuning. Code is available at https://github.com/XZheng0427/OpenUS.