Unimedvl: Unificación de la Comprensión y Generación Multimodal en Medicina Mediante Observación-Conocimiento-Análisis
Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis
October 17, 2025
Autores: Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He
cs.AI
Resumen
Las aplicaciones de diagnóstico médico requieren modelos que puedan procesar entradas médicas multimodales (imágenes, historiales de pacientes, resultados de laboratorio) y generar resultados diversos, incluyendo tanto informes textuales como contenido visual (anotaciones, máscaras de segmentación e imágenes). A pesar de esta necesidad, los sistemas de IA médica existentes interrumpen este proceso unificado: los modelos de comprensión de imágenes médicas interpretan las imágenes pero no pueden generar resultados visuales, mientras que los modelos de generación de imágenes médicas sintetizan imágenes pero no pueden proporcionar explicaciones textuales. Esto conduce a brechas en la representación de datos, la integración de características y las capacidades multimodales a nivel de tareas. Con este fin, proponemos un marco multinivel que se inspira en los flujos de trabajo de diagnóstico a través del paradigma Observación-Conocimiento-Análisis (OKA). Específicamente, en el nivel de observación, construimos UniMed-5M, un conjunto de datos que comprende más de 5.6 millones de muestras que reformatean datos unimodales diversos en pares multimodales para la observación fundamental. En el nivel de conocimiento, proponemos el Aprendizaje Curricular Progresivo que introduce sistemáticamente el conocimiento multimodal médico. En el nivel de análisis, presentamos UniMedVL, el primer modelo médico unificado multimodal para el análisis simultáneo de tareas de comprensión y generación de imágenes dentro de una única arquitectura. UniMedVL logra un rendimiento superior en cinco puntos de referencia de comprensión de imágenes médicas, mientras iguala la calidad de generación de modelos especializados en ocho modalidades de imágenes médicas. Crucialmente, nuestra arquitectura unificada permite el intercambio bidireccional de conocimiento: las tareas de generación mejoran las características de comprensión visual, demostrando que la integración de capacidades tradicionalmente separadas dentro de un marco médico único desbloquea mejoras en diversas tareas de visión y lenguaje médico. El código está disponible en https://github.com/uni-medical/UniMedVL.
English
Medical diagnostic applications require models that can process multimodal
medical inputs (images, patient histories, lab results) and generate diverse
outputs including both textual reports and visual content (annotations,
segmentation masks, and images). Despite this need, existing medical AI systems
disrupt this unified process: medical image understanding models interpret
images but cannot generate visual outputs, while medical image generation
models synthesize images but cannot provide textual explanations. This leads to
gaps in data representation, feature integration, and task-level multimodal
capabilities. To this end, we propose a multi-level framework that draws
inspiration from diagnostic workflows through the
Observation-Knowledge-Analysis (OKA) paradigm. Specifically, at the observation
level, we construct UniMed-5M, a dataset comprising over 5.6M samples that
reformat diverse unimodal data into multimodal pairs for foundational
observation. At the knowledge level, we propose Progressive Curriculum Learning
that systematically introduces medical multimodal knowledge. At the analysis
level, we introduce UniMedVL, the first medical unified multimodal model for
the simultaneous analysis of image understanding and generation tasks within a
single architecture. UniMedVL achieves superior performance on five medical
image understanding benchmarks, while matching specialized models in generation
quality across eight medical imaging modalities. Crucially, our unified
architecture enables bidirectional knowledge sharing: generation tasks enhance
visual understanding features, demonstrating that integrating traditionally
separate capabilities within a single medical framework unlocks improvements
across diverse medical vision-language tasks. Code is available at
https://github.com/uni-medical/UniMedVL.