ChatPaper.aiChatPaper

Дискретные модели диффузии с MLLM для унифицированной генерации медицинских мультимодальных данных

Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation

October 7, 2025
Авторы: Jiawei Mao, Yuhan Wang, Lifeng Chen, Can Zhao, Yucheng Tang, Dong Yang, Liangqiong Qu, Daguang Xu, Yuyin Zhou
cs.AI

Аннотация

Последние достижения в области генеративных медицинских моделей ограничены сценариями, специфичными для отдельных модальностей, что затрудняет интеграцию дополнительных данных из визуализации, патологии и клинических записей. Эта фрагментация ограничивает их развитие в фундаментальные модели, способные обучаться и рассуждать на основе всего спектра биомедицинских данных. Мы предлагаем MeDiM — первую медицинскую модель с дискретным диффузионным процессом, которая изучает общие распределения для различных модальностей без использования специфичных для них компонентов. MeDiM объединяет несколько генеративных задач: перевод между изображениями и текстом, а также совместное создание пар изображение-отчет в различных областях в ответ на запросы. Основанная на дискретном диффузионном подходе, MeDiM связывает визуальные и языковые представления через общее вероятностное пространство. Для обеспечения универсальной и гибкой медицинской генерации мы используем мультимодальную крупную языковую модель (MLLM) в качестве основы для диффузии, используя её предварительные знания и способность к кросс-модальным рассуждениям. Введены два ключевых решения: (1) удаление маски каузального внимания для двунаправленного контекста и (2) внедрение непрерывных временных вложений для осознания диффузии. Эксперименты демонстрируют высококачественную медицинскую генерацию (FID 16.60 на MIMIC-CXR и FID 24.19 на PathGen) и точное создание отчетов (METEOR 0.2650 и 0.2580). Совместно сгенерированные пары изображение-отчет дополнительно улучшают производительность на последующих этапах (плюс 6.43% BLEU-1, плюс 18.57% BLEU-2, плюс 31.58% BLEU-3, плюс 4.80% METEOR), что показывает, что MeDiM поддерживает согласованные и клинически обоснованные мультимодальные результаты.
English
Recent advances in generative medical models are constrained by modality-specific scenarios that hinder the integration of complementary evidence from imaging, pathology, and clinical notes. This fragmentation limits their evolution into foundation models that can learn and reason across the full spectrum of biomedical data. We propose MeDiM, the first medical discrete diffusion model that learns shared distributions across modalities without modality-specific components. MeDiM unifies multiple generative tasks: translating between images and text, and jointly producing image-report pairs across domains in response to prompts. Built on a discrete diffusion framework, MeDiM bridges vision and language representations through a shared probabilistic space. To enable unified and flexible medical generation, we employ a multimodal large language model (MLLM) as the diffusion backbone, leveraging its prior knowledge and cross-modal reasoning. Two key designs are introduced: (1) removing the causal attention mask for bidirectional context, and (2) injecting continuous timestep embeddings for diffusion awareness. Experiments demonstrate high-fidelity medical generation (FID 16.60 on MIMIC-CXR and FID 24.19 on PathGen) and accurate report generation (METEOR 0.2650 and 0.2580). Jointly generated image-report pairs further enhance downstream performance (plus6.43 percent BLEU-1, plus18.57 percent BLEU-2, plus31.58 percent BLEU-3, plus4.80 percent METEOR), showing that MeDiM supports coherent and clinically grounded multimodal outputs.
PDF102October 8, 2025