ChatPaper.aiChatPaper

M3Ret: Liberando a Recuperação de Imagens Médicas Multimodais Zero-shot por meio de Auto-Supervisão

M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision

September 1, 2025
Autores: Che Liu, Zheng Jiang, Chengyu Fang, Heng Guo, Yan-Jie Zhou, Jiaqi Qu, Le Lu, Minfeng Xu
cs.AI

Resumo

A recuperação de imagens médicas é essencial para a tomada de decisões clínicas e pesquisas translacionais, dependendo de representações visuais discriminativas. No entanto, os métodos atuais permanecem fragmentados, baseando-se em arquiteturas e estratégias de treinamento separadas para dados médicos em 2D, 3D e baseados em vídeo. Esse design específico por modalidade dificulta a escalabilidade e inibe o desenvolvimento de representações unificadas. Para permitir o aprendizado unificado, organizamos um conjunto de dados de grande escala com múltiplas modalidades, composto por 867.653 amostras de imagens médicas, incluindo radiografias 2D e ultrassons, vídeos endoscópicos RGB e tomografias computadorizadas 3D. Utilizando esse conjunto de dados, treinamos o M3Ret, um codificador visual unificado sem qualquer personalização específica por modalidade. Ele aprende com sucesso representações transferíveis usando paradigmas de aprendizado auto-supervisionado (SSL) tanto generativos (MAE) quanto contrastivos (SimDINO). Nossa abordagem estabelece um novo estado da arte na recuperação zero-shot de imagem para imagem em todas as modalidades individuais, superando fortes baselines como o DINOv3 e o BMC-CLIP supervisionado por texto. Mais notavelmente, surge um forte alinhamento entre modalidades sem dados pareados, e o modelo generaliza para tarefas de ressonância magnética (MRI) não vistas, apesar de nunca ter observado MRI durante o pré-treinamento, demonstrando a generalizabilidade da auto-supervisão puramente visual para modalidades não vistas. Análises abrangentes validam ainda mais a escalabilidade de nossa estrutura em relação aos tamanhos do modelo e dos dados. Esses achados entregam um sinal promissor para a comunidade de imagens médicas, posicionando o M3Ret como um passo em direção a modelos de base para SSL visual na compreensão de imagens médicas multimodais.
English
Medical image retrieval is essential for clinical decision-making and translational research, relying on discriminative visual representations. Yet, current methods remain fragmented, relying on separate architectures and training strategies for 2D, 3D, and video-based medical data. This modality-specific design hampers scalability and inhibits the development of unified representations. To enable unified learning, we curate a large-scale hybrid-modality dataset comprising 867,653 medical imaging samples, including 2D X-rays and ultrasounds, RGB endoscopy videos, and 3D CT scans. Leveraging this dataset, we train M3Ret, a unified visual encoder without any modality-specific customization. It successfully learns transferable representations using both generative (MAE) and contrastive (SimDINO) self-supervised learning (SSL) paradigms. Our approach sets a new state-of-the-art in zero-shot image-to-image retrieval across all individual modalities, surpassing strong baselines such as DINOv3 and the text-supervised BMC-CLIP. More remarkably, strong cross-modal alignment emerges without paired data, and the model generalizes to unseen MRI tasks, despite never observing MRI during pretraining, demonstrating the generalizability of purely visual self-supervision to unseen modalities. Comprehensive analyses further validate the scalability of our framework across model and data sizes. These findings deliver a promising signal to the medical imaging community, positioning M3Ret as a step toward foundation models for visual SSL in multimodal medical image understanding.
PDF111September 3, 2025