ChatPaper.aiChatPaper

Modelli di Diffusione Discreti con MLLM per la Generazione Multimodale Medica Unificata

Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation

October 7, 2025
Autori: Jiawei Mao, Yuhan Wang, Lifeng Chen, Can Zhao, Yucheng Tang, Dong Yang, Liangqiong Qu, Daguang Xu, Yuyin Zhou
cs.AI

Abstract

I recenti progressi nei modelli generativi medici sono limitati da scenari specifici per modalità che ostacolano l'integrazione di evidenze complementari provenienti da imaging, patologia e note cliniche. Questa frammentazione ne limita l'evoluzione in modelli di base in grado di apprendere e ragionare sull'intero spettro di dati biomedici. Proponiamo MeDiM, il primo modello di diffusione discreta medica che apprende distribuzioni condivise tra le modalità senza componenti specifiche per modalità. MeDiM unifica molteplici task generativi: traduzione tra immagini e testo, e produzione congiunta di coppie immagine-report tra domini in risposta a prompt. Basato su un framework di diffusione discreta, MeDiM collega le rappresentazioni visive e linguistiche attraverso uno spazio probabilistico condiviso. Per abilitare una generazione medica unificata e flessibile, utilizziamo un modello linguistico multimodale di grandi dimensioni (MLLM) come backbone di diffusione, sfruttandone la conoscenza pregressa e il ragionamento cross-modale. Sono introdotti due design chiave: (1) rimozione della maschera di attenzione causale per un contesto bidirezionale, e (2) iniezione di embedding continui dei timestep per la consapevolezza della diffusione. Gli esperimenti dimostrano una generazione medica ad alta fedeltà (FID 16.60 su MIMIC-CXR e FID 24.19 su PathGen) e una generazione accurata di report (METEOR 0.2650 e 0.2580). Le coppie immagine-report generate congiuntamente migliorano ulteriormente le prestazioni downstream (più6.43 percento BLEU-1, più18.57 percento BLEU-2, più31.58 percento BLEU-3, più4.80 percento METEOR), mostrando che MeDiM supporta output multimodali coerenti e clinicamente fondati.
English
Recent advances in generative medical models are constrained by modality-specific scenarios that hinder the integration of complementary evidence from imaging, pathology, and clinical notes. This fragmentation limits their evolution into foundation models that can learn and reason across the full spectrum of biomedical data. We propose MeDiM, the first medical discrete diffusion model that learns shared distributions across modalities without modality-specific components. MeDiM unifies multiple generative tasks: translating between images and text, and jointly producing image-report pairs across domains in response to prompts. Built on a discrete diffusion framework, MeDiM bridges vision and language representations through a shared probabilistic space. To enable unified and flexible medical generation, we employ a multimodal large language model (MLLM) as the diffusion backbone, leveraging its prior knowledge and cross-modal reasoning. Two key designs are introduced: (1) removing the causal attention mask for bidirectional context, and (2) injecting continuous timestep embeddings for diffusion awareness. Experiments demonstrate high-fidelity medical generation (FID 16.60 on MIMIC-CXR and FID 24.19 on PathGen) and accurate report generation (METEOR 0.2650 and 0.2580). Jointly generated image-report pairs further enhance downstream performance (plus6.43 percent BLEU-1, plus18.57 percent BLEU-2, plus31.58 percent BLEU-3, plus4.80 percent METEOR), showing that MeDiM supports coherent and clinically grounded multimodal outputs.
PDF102October 8, 2025