Unimedvl: Unificazione della Comprensione e Generazione Multimodale in Medicina Attraverso Osservazione-Conoscenza-Analisi
Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis
October 17, 2025
Autori: Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He
cs.AI
Abstract
Le applicazioni diagnostiche mediche richiedono modelli in grado di elaborare input medici multimodali (immagini, storie cliniche, risultati di laboratorio) e generare output diversificati, inclusi sia report testuali che contenuti visivi (annotazioni, maschere di segmentazione e immagini). Nonostante questa necessità, i sistemi di intelligenza artificiale medica esistenti frammentano questo processo unificato: i modelli di comprensione delle immagini mediche interpretano le immagini ma non possono generare output visivi, mentre i modelli di generazione di immagini mediche sintetizzano immagini ma non possono fornire spiegazioni testuali. Ciò porta a lacune nella rappresentazione dei dati, nell'integrazione delle caratteristiche e nelle capacità multimodali a livello di task. A tal fine, proponiamo un framework multilivello che trae ispirazione dai flussi di lavoro diagnostici attraverso il paradigma Osservazione-Conoscenza-Analisi (OKA). Nello specifico, a livello di osservazione, costruiamo UniMed-5M, un dataset che comprende oltre 5,6 milioni di campioni che riformattano dati unimodali eterogenei in coppie multimodali per un'osservazione di base. A livello di conoscenza, proponiamo il Progressive Curriculum Learning, che introduce sistematicamente conoscenze mediche multimodali. A livello di analisi, introduciamo UniMedVL, il primo modello medico multimodale unificato per l'analisi simultanea di task di comprensione e generazione di immagini all'interno di un'unica architettura. UniMedVL raggiunge prestazioni superiori su cinque benchmark di comprensione delle immagini mediche, eguagliando modelli specializzati nella qualità di generazione su otto modalità di imaging medico. Fondamentalmente, la nostra architettura unificata consente la condivisione bidirezionale della conoscenza: i task di generazione migliorano le caratteristiche di comprensione visiva, dimostrando che l'integrazione di capacità tradizionalmente separate all'interno di un unico framework medico consente miglioramenti in diversi task di visione e linguaggio medico. Il codice è disponibile all'indirizzo https://github.com/uni-medical/UniMedVL.
English
Medical diagnostic applications require models that can process multimodal
medical inputs (images, patient histories, lab results) and generate diverse
outputs including both textual reports and visual content (annotations,
segmentation masks, and images). Despite this need, existing medical AI systems
disrupt this unified process: medical image understanding models interpret
images but cannot generate visual outputs, while medical image generation
models synthesize images but cannot provide textual explanations. This leads to
gaps in data representation, feature integration, and task-level multimodal
capabilities. To this end, we propose a multi-level framework that draws
inspiration from diagnostic workflows through the
Observation-Knowledge-Analysis (OKA) paradigm. Specifically, at the observation
level, we construct UniMed-5M, a dataset comprising over 5.6M samples that
reformat diverse unimodal data into multimodal pairs for foundational
observation. At the knowledge level, we propose Progressive Curriculum Learning
that systematically introduces medical multimodal knowledge. At the analysis
level, we introduce UniMedVL, the first medical unified multimodal model for
the simultaneous analysis of image understanding and generation tasks within a
single architecture. UniMedVL achieves superior performance on five medical
image understanding benchmarks, while matching specialized models in generation
quality across eight medical imaging modalities. Crucially, our unified
architecture enables bidirectional knowledge sharing: generation tasks enhance
visual understanding features, demonstrating that integrating traditionally
separate capabilities within a single medical framework unlocks improvements
across diverse medical vision-language tasks. Code is available at
https://github.com/uni-medical/UniMedVL.