OpenUS: Полностью открытая базовая модель для анализа ультразвуковых изображений с помощью самоадаптирующегося маскированного контрастного обучения
OpenUS: A Fully Open-Source Foundation Model for Ultrasound Image Analysis via Self-Adaptive Masked Contrastive Learning
November 14, 2025
Авторы: Xiaoyu Zheng, Xu Chen, Awais Rauf, Qifan Fu, Benedetta Monosi, Felice Rivellese, Myles J. Lewis, Shaogang Gong, Gregory Slabaugh
cs.AI
Аннотация
Ультразвуковое исследование (УЗИ) является одним из наиболее широко используемых методов медицинской визуализации благодаря своей низкой стоимости, портативности, возможности получения изображения в реальном времени и отсутствию ионизирующего излучения. Однако интерпретация УЗ-изображений остается в высокой степени зависимой от оператора и значительно варьируется в зависимости от анатомических областей, протоколов получения изображений и типов оборудования. Эти вариации, наряду с такими уникальными challenges, как наличие спекл-шума, низкая контрастность и ограниченность стандартизированных аннотаций, препятствуют разработке обобщаемых и эффективных по меткам ИИ-моделей для ультразвука. В данной статье мы представляем OpenUS — первую воспроизводимую модель-основу для ультразвука с открытым исходным кодом, построенную на большой коллекции публичных данных. OpenUS использует архитектуру Vision Mamba, которая захватывает как локальные, так и глобальные дальнодействующие зависимости в изображении. Для извлечения богатых признаков на этапе предварительного обучения мы вводим новую framework самоконфигурируемого маскирования, сочетающую контрастное обучение с маскированным моделированием изображений. Данная стратегия интегрирует карту внимания учителя с loss-функцией реконструкции ученика, адаптивно уточняя клинически релевантное маскирование для повышения эффективности предварительного обучения. OpenUS также применяет динамическое расписание обучения для постепенной регулировки сложности процесса предварительного обучения. Для разработки модели-основы мы собрали крупнейший на сегодняшний день публичный набор ультразвуковых данных, содержащий более 308 тыс. изображений из 42 общедоступных датасетов, охватывающих различные анатомические области, медицинские учреждения, типы сканеров и виды патологий. Наша предварительно обученная модель OpenUS может быть легко адаптирована для конкретных downstream-задач путем использования в качестве основы для эффективного по меткам тонкого настроения. Код доступен по адресу https://github.com/XZheng0427/OpenUS.
English
Ultrasound (US) is one of the most widely used medical imaging modalities, thanks to its low cost, portability, real-time feedback, and absence of ionizing radiation. However, US image interpretation remains highly operator-dependent and varies significantly across anatomical regions, acquisition protocols, and device types. These variations, along with unique challenges such as speckle, low contrast, and limited standardized annotations, hinder the development of generalizable, label-efficient ultrasound AI models. In this paper, we propose OpenUS, the first reproducible, open-source ultrasound foundation model built on a large collection of public data. OpenUS employs a vision Mamba backbone, capturing both local and global long-range dependencies across the image. To extract rich features during pre-training, we introduce a novel self-adaptive masking framework that combines contrastive learning with masked image modeling. This strategy integrates the teacher's attention map with student reconstruction loss, adaptively refining clinically-relevant masking to enhance pre-training effectiveness. OpenUS also applies a dynamic learning schedule to progressively adjust the difficulty of the pre-training process. To develop the foundation model, we compile the largest to-date public ultrasound dataset comprising over 308K images from 42 publicly available datasets, covering diverse anatomical regions, institutions, imaging devices, and disease types. Our pre-trained OpenUS model can be easily adapted to specific downstream tasks by serving as a backbone for label-efficient fine-tuning. Code is available at https://github.com/XZheng0427/OpenUS.