ChatPaper.aiChatPaper

Modèles de diffusion discrets avec MLLMs pour la génération médicale multimodale unifiée

Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation

October 7, 2025
papers.authors: Jiawei Mao, Yuhan Wang, Lifeng Chen, Can Zhao, Yucheng Tang, Dong Yang, Liangqiong Qu, Daguang Xu, Yuyin Zhou
cs.AI

papers.abstract

Les récents progrès dans les modèles médicaux génératifs sont limités par des scénarios spécifiques à chaque modalité, ce qui entrave l'intégration de preuves complémentaires provenant de l'imagerie, de la pathologie et des notes cliniques. Cette fragmentation restreint leur évolution vers des modèles de base capables d'apprendre et de raisonner à travers l'ensemble du spectre des données biomédicales. Nous proposons MeDiM, le premier modèle de diffusion discrète médical qui apprend des distributions partagées entre les modalités sans composants spécifiques à une modalité. MeDiM unifie plusieurs tâches génératives : la traduction entre images et texte, et la production conjointe de paires image-rapport à travers différents domaines en réponse à des prompts. Basé sur un cadre de diffusion discrète, MeDiM relie les représentations visuelles et linguistiques à travers un espace probabiliste partagé. Pour permettre une génération médicale unifiée et flexible, nous utilisons un modèle de langage multimodal (MLLM) comme structure de diffusion, en exploitant ses connaissances préalables et son raisonnement intermodal. Deux conceptions clés sont introduites : (1) la suppression du masque d'attention causal pour un contexte bidirectionnel, et (2) l'injection d'embeddings temporels continus pour la prise de conscience de la diffusion. Les expériences démontrent une génération médicale de haute fidélité (FID 16,60 sur MIMIC-CXR et FID 24,19 sur PathGen) et une génération précise de rapports (METEOR 0,2650 et 0,2580). Les paires image-rapport générées conjointement améliorent encore les performances en aval (plus 6,43 % BLEU-1, plus 18,57 % BLEU-2, plus 31,58 % BLEU-3, plus 4,80 % METEOR), montrant que MeDiM soutient des sorties multimodales cohérentes et cliniquement pertinentes.
English
Recent advances in generative medical models are constrained by modality-specific scenarios that hinder the integration of complementary evidence from imaging, pathology, and clinical notes. This fragmentation limits their evolution into foundation models that can learn and reason across the full spectrum of biomedical data. We propose MeDiM, the first medical discrete diffusion model that learns shared distributions across modalities without modality-specific components. MeDiM unifies multiple generative tasks: translating between images and text, and jointly producing image-report pairs across domains in response to prompts. Built on a discrete diffusion framework, MeDiM bridges vision and language representations through a shared probabilistic space. To enable unified and flexible medical generation, we employ a multimodal large language model (MLLM) as the diffusion backbone, leveraging its prior knowledge and cross-modal reasoning. Two key designs are introduced: (1) removing the causal attention mask for bidirectional context, and (2) injecting continuous timestep embeddings for diffusion awareness. Experiments demonstrate high-fidelity medical generation (FID 16.60 on MIMIC-CXR and FID 24.19 on PathGen) and accurate report generation (METEOR 0.2650 and 0.2580). Jointly generated image-report pairs further enhance downstream performance (plus6.43 percent BLEU-1, plus18.57 percent BLEU-2, plus31.58 percent BLEU-3, plus4.80 percent METEOR), showing that MeDiM supports coherent and clinically grounded multimodal outputs.
PDF102October 8, 2025