ChatPaper.aiChatPaper

Modelos de Difusão Discreta com MLLMs para Geração Médica Multimodal Unificada

Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation

October 7, 2025
Autores: Jiawei Mao, Yuhan Wang, Lifeng Chen, Can Zhao, Yucheng Tang, Dong Yang, Liangqiong Qu, Daguang Xu, Yuyin Zhou
cs.AI

Resumo

Os avanços recentes em modelos médicos generativos são limitados por cenários específicos de modalidade que dificultam a integração de evidências complementares de imagens, patologia e notas clínicas. Essa fragmentação restringe sua evolução para modelos fundamentais que podem aprender e raciocinar em todo o espectro de dados biomédicos. Propomos o MeDiM, o primeiro modelo de difusão discreta médica que aprende distribuições compartilhadas entre modalidades sem componentes específicos de modalidade. O MeDiM unifica múltiplas tarefas generativas: tradução entre imagens e texto, e produção conjunta de pares imagem-relatório em diferentes domínios em resposta a prompts. Construído sobre um framework de difusão discreta, o MeDiM conecta representações visuais e linguísticas por meio de um espaço probabilístico compartilhado. Para permitir geração médica unificada e flexível, empregamos um modelo de linguagem multimodal de grande escala (MLLM) como backbone de difusão, aproveitando seu conhecimento prévio e raciocínio multimodal. Dois designs-chave são introduzidos: (1) remoção da máscara de atenção causal para contexto bidirecional, e (2) injeção de embeddings contínuos de timestep para consciência de difusão. Experimentos demonstram geração médica de alta fidelidade (FID 16,60 no MIMIC-CXR e FID 24,19 no PathGen) e geração precisa de relatórios (METEOR 0,2650 e 0,2580). Pares imagem-relatório gerados conjuntamente melhoram ainda mais o desempenho downstream (mais 6,43% BLEU-1, mais 18,57% BLEU-2, mais 31,58% BLEU-3, mais 4,80% METEOR), mostrando que o MeDiM suporta saídas multimodais coerentes e clinicamente fundamentadas.
English
Recent advances in generative medical models are constrained by modality-specific scenarios that hinder the integration of complementary evidence from imaging, pathology, and clinical notes. This fragmentation limits their evolution into foundation models that can learn and reason across the full spectrum of biomedical data. We propose MeDiM, the first medical discrete diffusion model that learns shared distributions across modalities without modality-specific components. MeDiM unifies multiple generative tasks: translating between images and text, and jointly producing image-report pairs across domains in response to prompts. Built on a discrete diffusion framework, MeDiM bridges vision and language representations through a shared probabilistic space. To enable unified and flexible medical generation, we employ a multimodal large language model (MLLM) as the diffusion backbone, leveraging its prior knowledge and cross-modal reasoning. Two key designs are introduced: (1) removing the causal attention mask for bidirectional context, and (2) injecting continuous timestep embeddings for diffusion awareness. Experiments demonstrate high-fidelity medical generation (FID 16.60 on MIMIC-CXR and FID 24.19 on PathGen) and accurate report generation (METEOR 0.2650 and 0.2580). Jointly generated image-report pairs further enhance downstream performance (plus6.43 percent BLEU-1, plus18.57 percent BLEU-2, plus31.58 percent BLEU-3, plus4.80 percent METEOR), showing that MeDiM supports coherent and clinically grounded multimodal outputs.
PDF102October 8, 2025