ChatPaper.aiChatPaper

Modelos de Difusión Discreta con MLLMs para la Generación Médica Multimodal Unificada

Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation

October 7, 2025
Autores: Jiawei Mao, Yuhan Wang, Lifeng Chen, Can Zhao, Yucheng Tang, Dong Yang, Liangqiong Qu, Daguang Xu, Yuyin Zhou
cs.AI

Resumen

Los avances recientes en modelos generativos médicos están limitados por escenarios específicos de modalidad que dificultan la integración de evidencia complementaria proveniente de imágenes, patología y notas clínicas. Esta fragmentación restringe su evolución hacia modelos fundacionales capaces de aprender y razonar a través de todo el espectro de datos biomédicos. Proponemos MeDiM, el primer modelo de difusión discreta médica que aprende distribuciones compartidas entre modalidades sin componentes específicos de modalidad. MeDiM unifica múltiples tareas generativas: traducción entre imágenes y texto, y producción conjunta de pares imagen-informe a través de dominios en respuesta a indicaciones. Basado en un marco de difusión discreta, MeDiM conecta representaciones de visión y lenguaje a través de un espacio probabilístico compartido. Para habilitar una generación médica unificada y flexible, empleamos un modelo de lenguaje multimodal de gran escala (MLLM) como columna vertebral de la difusión, aprovechando su conocimiento previo y razonamiento multimodal. Se introducen dos diseños clave: (1) eliminar la máscara de atención causal para un contexto bidireccional, y (2) inyectar incrustaciones continuas de pasos temporales para la conciencia de la difusión. Los experimentos demuestran una generación médica de alta fidelidad (FID 16.60 en MIMIC-CXR y FID 24.19 en PathGen) y una generación precisa de informes (METEOR 0.2650 y 0.2580). Los pares imagen-informe generados conjuntamente mejoran aún más el rendimiento en tareas posteriores (+6.43% BLEU-1, +18.57% BLEU-2, +31.58% BLEU-3, +4.80% METEOR), mostrando que MeDiM respalda salidas multimodales coherentes y clínicamente fundamentadas.
English
Recent advances in generative medical models are constrained by modality-specific scenarios that hinder the integration of complementary evidence from imaging, pathology, and clinical notes. This fragmentation limits their evolution into foundation models that can learn and reason across the full spectrum of biomedical data. We propose MeDiM, the first medical discrete diffusion model that learns shared distributions across modalities without modality-specific components. MeDiM unifies multiple generative tasks: translating between images and text, and jointly producing image-report pairs across domains in response to prompts. Built on a discrete diffusion framework, MeDiM bridges vision and language representations through a shared probabilistic space. To enable unified and flexible medical generation, we employ a multimodal large language model (MLLM) as the diffusion backbone, leveraging its prior knowledge and cross-modal reasoning. Two key designs are introduced: (1) removing the causal attention mask for bidirectional context, and (2) injecting continuous timestep embeddings for diffusion awareness. Experiments demonstrate high-fidelity medical generation (FID 16.60 on MIMIC-CXR and FID 24.19 on PathGen) and accurate report generation (METEOR 0.2650 and 0.2580). Jointly generated image-report pairs further enhance downstream performance (plus6.43 percent BLEU-1, plus18.57 percent BLEU-2, plus31.58 percent BLEU-3, plus4.80 percent METEOR), showing that MeDiM supports coherent and clinically grounded multimodal outputs.
PDF102October 8, 2025