Discrete Diffusiemodellen met MLLMs voor Geïntegreerde Medische Multimodale Generatie
Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation
October 7, 2025
Auteurs: Jiawei Mao, Yuhan Wang, Lifeng Chen, Can Zhao, Yucheng Tang, Dong Yang, Liangqiong Qu, Daguang Xu, Yuyin Zhou
cs.AI
Samenvatting
Recente vooruitgang in generatieve medische modellen wordt beperkt door
modality-specifieke scenario's die de integratie van complementair bewijs
van beeldvorming, pathologie en klinische notities belemmeren. Deze
fragmentatie beperkt hun evolutie naar foundation modellen die kunnen leren
en redeneren over het volledige spectrum van biomedische data. Wij stellen
MeDiM voor, het eerste medische discrete diffusiemodel dat gedeelde
verdelingen leert over modaliteiten heen zonder modality-specifieke
componenten. MeDiM verenigt meerdere generatieve taken: vertalen tussen
afbeeldingen en tekst, en gezamenlijk produceren van afbeelding-rapport
paren over domeinen heen als reactie op prompts. Gebouwd op een discreet
diffusiekader, verbindt MeDiM visuele en taalrepresentaties via een gedeelde
probabilistische ruimte. Om verenigde en flexibele medische generatie mogelijk
te maken, gebruiken we een multimodaal groot taalmodel (MLLM) als de
diffusie-backbone, waarbij we gebruikmaken van zijn voorkennis en
cross-modale redenering. Twee belangrijke ontwerpen worden geïntroduceerd:
(1) het verwijderen van het causale aandachtmasker voor bidirectionele
context, en (2) het injecteren van continue tijdstap-embeddings voor
diffusiebewustzijn. Experimenten tonen hoogwaardige medische generatie aan
(FID 16.60 op MIMIC-CXR en FID 24.19 op PathGen) en accurate rapportgeneratie
(METEOR 0.2650 en 0.2580). Gezamenlijk gegenereerde afbeelding-rapport paren
verder verbeteren de downstream prestaties (plus6.43 procent BLEU-1,
plus18.57 procent BLEU-2, plus31.58 procent BLEU-3, plus4.80 procent METEOR),
wat aantoont dat MeDiM samenhangende en klinisch onderbouwde multimodale
outputs ondersteunt.
English
Recent advances in generative medical models are constrained by
modality-specific scenarios that hinder the integration of complementary
evidence from imaging, pathology, and clinical notes. This fragmentation limits
their evolution into foundation models that can learn and reason across the
full spectrum of biomedical data. We propose MeDiM, the first medical discrete
diffusion model that learns shared distributions across modalities without
modality-specific components. MeDiM unifies multiple generative tasks:
translating between images and text, and jointly producing image-report pairs
across domains in response to prompts. Built on a discrete diffusion framework,
MeDiM bridges vision and language representations through a shared
probabilistic space. To enable unified and flexible medical generation, we
employ a multimodal large language model (MLLM) as the diffusion backbone,
leveraging its prior knowledge and cross-modal reasoning. Two key designs are
introduced: (1) removing the causal attention mask for bidirectional context,
and (2) injecting continuous timestep embeddings for diffusion awareness.
Experiments demonstrate high-fidelity medical generation (FID 16.60 on
MIMIC-CXR and FID 24.19 on PathGen) and accurate report generation (METEOR
0.2650 and 0.2580). Jointly generated image-report pairs further enhance
downstream performance (plus6.43 percent BLEU-1, plus18.57 percent BLEU-2,
plus31.58 percent BLEU-3, plus4.80 percent METEOR), showing that MeDiM supports
coherent and clinically grounded multimodal outputs.