Unimedvl: Унификация многомодального понимания и генерации в медицине через наблюдение-знание-анализ
Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis
October 17, 2025
Авторы: Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He
cs.AI
Аннотация
Медицинские диагностические приложения требуют моделей, способных обрабатывать мультимодальные медицинские данные (изображения, истории болезней, результаты лабораторных анализов) и генерировать разнообразные выходные данные, включая как текстовые отчеты, так и визуальный контент (аннотации, маски сегментации и изображения). Несмотря на эту потребность, существующие медицинские системы ИИ нарушают этот единый процесс: модели для понимания медицинских изображений интерпретируют изображения, но не могут генерировать визуальные выходные данные, в то время как модели для генерации медицинских изображений синтезируют изображения, но не могут предоставлять текстовые объяснения. Это приводит к пробелам в представлении данных, интеграции признаков и мультимодальных возможностях на уровне задач. В связи с этим мы предлагаем многоуровневую структуру, вдохновленную диагностическими процессами через парадигму Наблюдение-Знание-Анализ (OKA). Конкретно, на уровне наблюдения мы создаем UniMed-5M — набор данных, содержащий более 5,6 миллионов образцов, которые преобразуют разнообразные унимодальные данные в мультимодальные пары для базового наблюдения. На уровне знаний мы предлагаем Прогрессивное обучение по учебному плану, которое систематически вводит мультимодальные медицинские знания. На уровне анализа мы представляем UniMedVL — первую медицинскую унифицированную мультимодальную модель для одновременного анализа задач понимания и генерации изображений в рамках единой архитектуры. UniMedVL демонстрирует превосходную производительность на пяти эталонных тестах для понимания медицинских изображений, одновременно соответствуя специализированным моделям по качеству генерации в восьми модальностях медицинской визуализации. Важно, что наша унифицированная архитектура обеспечивает двусторонний обмен знаниями: задачи генерации улучшают признаки визуального понимания, демонстрируя, что интеграция традиционно разделенных возможностей в рамках единой медицинской структуры открывает возможности для улучшений в разнообразных задачах медицинского анализа изображений и текста. Код доступен по адресу https://github.com/uni-medical/UniMedVL.
English
Medical diagnostic applications require models that can process multimodal
medical inputs (images, patient histories, lab results) and generate diverse
outputs including both textual reports and visual content (annotations,
segmentation masks, and images). Despite this need, existing medical AI systems
disrupt this unified process: medical image understanding models interpret
images but cannot generate visual outputs, while medical image generation
models synthesize images but cannot provide textual explanations. This leads to
gaps in data representation, feature integration, and task-level multimodal
capabilities. To this end, we propose a multi-level framework that draws
inspiration from diagnostic workflows through the
Observation-Knowledge-Analysis (OKA) paradigm. Specifically, at the observation
level, we construct UniMed-5M, a dataset comprising over 5.6M samples that
reformat diverse unimodal data into multimodal pairs for foundational
observation. At the knowledge level, we propose Progressive Curriculum Learning
that systematically introduces medical multimodal knowledge. At the analysis
level, we introduce UniMedVL, the first medical unified multimodal model for
the simultaneous analysis of image understanding and generation tasks within a
single architecture. UniMedVL achieves superior performance on five medical
image understanding benchmarks, while matching specialized models in generation
quality across eight medical imaging modalities. Crucially, our unified
architecture enables bidirectional knowledge sharing: generation tasks enhance
visual understanding features, demonstrating that integrating traditionally
separate capabilities within a single medical framework unlocks improvements
across diverse medical vision-language tasks. Code is available at
https://github.com/uni-medical/UniMedVL.