Unimedvl : Unification de la compréhension et de la génération multimodales médicales par Observation-Connaissance-Analyse
Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis
October 17, 2025
papers.authors: Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He
cs.AI
papers.abstract
Les applications de diagnostic médical nécessitent des modèles capables de traiter des entrées médicales multimodales (images, antécédents des patients, résultats de laboratoire) et de générer des sorties diversifiées, incluant à la fois des rapports textuels et du contenu visuel (annotations, masques de segmentation et images). Malgré ce besoin, les systèmes d'IA médicale existants perturbent ce processus unifié : les modèles de compréhension d'images médicales interprètent les images mais ne peuvent pas générer de sorties visuelles, tandis que les modèles de génération d'images médicales synthétisent des images mais ne peuvent pas fournir d'explications textuelles. Cela entraîne des lacunes dans la représentation des données, l'intégration des caractéristiques et les capacités multimodales au niveau des tâches. À cette fin, nous proposons un cadre multiniveau qui s'inspire des workflows de diagnostic à travers le paradigme Observation-Connaissance-Analyse (OKA). Plus précisément, au niveau de l'observation, nous construisons UniMed-5M, un ensemble de données comprenant plus de 5,6 millions d'échantillons qui reformatent des données unimodales diversifiées en paires multimodales pour une observation fondamentale. Au niveau de la connaissance, nous proposons l'apprentissage progressif par curriculum qui introduit systématiquement des connaissances médicales multimodales. Au niveau de l'analyse, nous introduisons UniMedVL, le premier modèle médical unifié multimodal pour l'analyse simultanée des tâches de compréhension et de génération d'images au sein d'une seule architecture. UniMedVL atteint des performances supérieures sur cinq benchmarks de compréhension d'images médicales, tout en égalant les modèles spécialisés en qualité de génération sur huit modalités d'imagerie médicale. De manière cruciale, notre architecture unifiée permet un partage bidirectionnel des connaissances : les tâches de génération améliorent les caractéristiques de compréhension visuelle, démontrant que l'intégration de capacités traditionnellement séparées dans un cadre médical unique débloque des améliorations pour diverses tâches de vision-langage médicales. Le code est disponible à l'adresse https://github.com/uni-medical/UniMedVL.
English
Medical diagnostic applications require models that can process multimodal
medical inputs (images, patient histories, lab results) and generate diverse
outputs including both textual reports and visual content (annotations,
segmentation masks, and images). Despite this need, existing medical AI systems
disrupt this unified process: medical image understanding models interpret
images but cannot generate visual outputs, while medical image generation
models synthesize images but cannot provide textual explanations. This leads to
gaps in data representation, feature integration, and task-level multimodal
capabilities. To this end, we propose a multi-level framework that draws
inspiration from diagnostic workflows through the
Observation-Knowledge-Analysis (OKA) paradigm. Specifically, at the observation
level, we construct UniMed-5M, a dataset comprising over 5.6M samples that
reformat diverse unimodal data into multimodal pairs for foundational
observation. At the knowledge level, we propose Progressive Curriculum Learning
that systematically introduces medical multimodal knowledge. At the analysis
level, we introduce UniMedVL, the first medical unified multimodal model for
the simultaneous analysis of image understanding and generation tasks within a
single architecture. UniMedVL achieves superior performance on five medical
image understanding benchmarks, while matching specialized models in generation
quality across eight medical imaging modalities. Crucially, our unified
architecture enables bidirectional knowledge sharing: generation tasks enhance
visual understanding features, demonstrating that integrating traditionally
separate capabilities within a single medical framework unlocks improvements
across diverse medical vision-language tasks. Code is available at
https://github.com/uni-medical/UniMedVL.