Diskrete Diffusionsmodelle mit MLLMs für die einheitliche medizinische multimodale Generierung
Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation
October 7, 2025
papers.authors: Jiawei Mao, Yuhan Wang, Lifeng Chen, Can Zhao, Yucheng Tang, Dong Yang, Liangqiong Qu, Daguang Xu, Yuyin Zhou
cs.AI
papers.abstract
Jüngste Fortschritte bei generativen medizinischen Modellen sind durch modalspezifische Szenarien eingeschränkt, die die Integration komplementärer Evidenz aus Bildgebung, Pathologie und klinischen Notizen behindern. Diese Fragmentierung begrenzt ihre Entwicklung zu Foundation-Modellen, die über das gesamte Spektrum biomedizinischer Daten lernen und schlussfolgern können. Wir stellen MeDiM vor, das erste medizinische diskrete Diffusionsmodell, das gemeinsame Verteilungen über Modalitäten hinweg lernt, ohne modalspezifische Komponenten. MeDiM vereint mehrere generative Aufgaben: die Übersetzung zwischen Bildern und Texten sowie die gemeinsame Erzeugung von Bild-Bericht-Paaren über Domänen hinweg als Reaktion auf Prompts. Auf einem diskreten Diffusionsframework aufbauend, verbindet MeDiM visuelle und sprachliche Repräsentationen durch einen gemeinsamen probabilistischen Raum. Um eine einheitliche und flexible medizinische Generierung zu ermöglichen, verwenden wir ein multimodales großes Sprachmodell (MLLM) als Diffusionsrückgrat, das dessen Vorwissen und cross-modales Schlussfolgern nutzt. Zwei Schlüsseldesigns werden eingeführt: (1) die Entfernung der kausalen Aufmerksamkeitsmaske für bidirektionalen Kontext und (2) die Injektion kontinuierlicher Zeitschritt-Einbettungen für Diffusionsbewusstsein. Experimente zeigen eine hochwertige medizinische Generierung (FID 16,60 auf MIMIC-CXR und FID 24,19 auf PathGen) und eine präzise Berichtsgenerierung (METEOR 0,2650 und 0,2580). Gemeinsam generierte Bild-Bericht-Paare verbessern weiterhin die Downstream-Leistung (plus 6,43 Prozent BLEU-1, plus 18,57 Prozent BLEU-2, plus 31,58 Prozent BLEU-3, plus 4,80 Prozent METEOR), was zeigt, dass MeDiM kohärente und klinisch fundierte multimodale Ausgaben unterstützt.
English
Recent advances in generative medical models are constrained by
modality-specific scenarios that hinder the integration of complementary
evidence from imaging, pathology, and clinical notes. This fragmentation limits
their evolution into foundation models that can learn and reason across the
full spectrum of biomedical data. We propose MeDiM, the first medical discrete
diffusion model that learns shared distributions across modalities without
modality-specific components. MeDiM unifies multiple generative tasks:
translating between images and text, and jointly producing image-report pairs
across domains in response to prompts. Built on a discrete diffusion framework,
MeDiM bridges vision and language representations through a shared
probabilistic space. To enable unified and flexible medical generation, we
employ a multimodal large language model (MLLM) as the diffusion backbone,
leveraging its prior knowledge and cross-modal reasoning. Two key designs are
introduced: (1) removing the causal attention mask for bidirectional context,
and (2) injecting continuous timestep embeddings for diffusion awareness.
Experiments demonstrate high-fidelity medical generation (FID 16.60 on
MIMIC-CXR and FID 24.19 on PathGen) and accurate report generation (METEOR
0.2650 and 0.2580). Jointly generated image-report pairs further enhance
downstream performance (plus6.43 percent BLEU-1, plus18.57 percent BLEU-2,
plus31.58 percent BLEU-3, plus4.80 percent METEOR), showing that MeDiM supports
coherent and clinically grounded multimodal outputs.