M3Ret: Реализация нулевого сценария для мультимодального поиска медицинских изображений через самообучение
M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision
September 1, 2025
Авторы: Che Liu, Zheng Jiang, Chengyu Fang, Heng Guo, Yan-Jie Zhou, Jiaqi Qu, Le Lu, Minfeng Xu
cs.AI
Аннотация
Поиск медицинских изображений играет ключевую роль в принятии клинических решений и трансляционных исследованиях, опираясь на дискриминативные визуальные представления. Однако современные методы остаются фрагментированными, используя отдельные архитектуры и стратегии обучения для 2D, 3D и видеоданных медицинской визуализации. Такой подход, ориентированный на конкретные модальности, ограничивает масштабируемость и препятствует разработке унифицированных представлений. Для обеспечения унифицированного обучения мы создали крупномасштабный набор данных смешанных модальностей, включающий 867 653 медицинских изображений, среди которых 2D рентгеновские снимки и ультразвуковые исследования, RGB-видео эндоскопии и 3D КТ-сканы. Используя этот набор данных, мы обучили M3Ret — унифицированный визуальный кодировщик без какой-либо специализации под конкретные модальности. Он успешно обучается переносимым представлениям с использованием как генеративных (MAE), так и контрастных (SimDINO) парадигм самообучения (SSL). Наш подход устанавливает новый эталон в задаче поиска изображений без дообучения (zero-shot) для всех отдельных модальностей, превосходя сильные базовые модели, такие как DINOv3 и текстово-обученный BMC-CLIP. Более того, достигается сильное кросс-модальное согласование без использования парных данных, а модель обобщается на задачи, связанные с МРТ, несмотря на то, что она никогда не видела МРТ во время предварительного обучения, что демонстрирует обобщаемость чисто визуального самообучения на неизвестные модальности. Комплексный анализ дополнительно подтверждает масштабируемость нашего подхода в зависимости от размеров модели и данных. Эти результаты представляют собой многообещающий сигнал для сообщества медицинской визуализации, позиционируя M3Ret как шаг к созданию фундаментальных моделей для визуального SSL в понимании многомодальных медицинских изображений.
English
Medical image retrieval is essential for clinical decision-making and
translational research, relying on discriminative visual representations. Yet,
current methods remain fragmented, relying on separate architectures and
training strategies for 2D, 3D, and video-based medical data. This
modality-specific design hampers scalability and inhibits the development of
unified representations. To enable unified learning, we curate a large-scale
hybrid-modality dataset comprising 867,653 medical imaging samples, including
2D X-rays and ultrasounds, RGB endoscopy videos, and 3D CT scans. Leveraging
this dataset, we train M3Ret, a unified visual encoder without any
modality-specific customization. It successfully learns transferable
representations using both generative (MAE) and contrastive (SimDINO)
self-supervised learning (SSL) paradigms. Our approach sets a new
state-of-the-art in zero-shot image-to-image retrieval across all individual
modalities, surpassing strong baselines such as DINOv3 and the text-supervised
BMC-CLIP. More remarkably, strong cross-modal alignment emerges without paired
data, and the model generalizes to unseen MRI tasks, despite never observing
MRI during pretraining, demonstrating the generalizability of purely visual
self-supervision to unseen modalities. Comprehensive analyses further validate
the scalability of our framework across model and data sizes. These findings
deliver a promising signal to the medical imaging community, positioning M3Ret
as a step toward foundation models for visual SSL in multimodal medical image
understanding.