ChatPaper.aiChatPaper

Unimedvl: Unificatie van Medisch Multimodaal Begrip en Generatie Door Observatie-Kennis-Analyse

Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis

October 17, 2025
Auteurs: Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He
cs.AI

Samenvatting

Medische diagnostische toepassingen vereisen modellen die multimodale medische invoer (afbeeldingen, patiëntgeschiedenissen, laboratoriumresultaten) kunnen verwerken en diverse uitvoer kunnen genereren, waaronder zowel tekstuele rapporten als visuele inhoud (annotaties, segmentatiemaskers en afbeeldingen). Ondanks deze behoefte verstoren bestaande medische AI-systemen dit geïntegreerde proces: modellen voor medische beeldinterpretatie begrijpen afbeeldingen maar kunnen geen visuele uitvoer genereren, terwijl modellen voor medische beeldgeneratie afbeeldingen synthetiseren maar geen tekstuele uitleg kunnen bieden. Dit leidt tot hiaten in gegevensrepresentatie, feature-integratie en multimodale mogelijkheden op takeniveau. Daarom stellen we een multiniveau raamwerk voor dat inspiratie put uit diagnostische workflows via het Observatie-Kennis-Analyse (OKA) paradigma. Specifiek construeren we op het observatieniveau UniMed-5M, een dataset met meer dan 5,6 miljoen monsters die diverse unimodale gegevens herformatteren naar multimodale paren voor fundamentele observatie. Op het kennissniveau introduceren we Progressief Curriculum Leren dat systematisch medische multimodale kennis introduceert. Op het analyseniveau introduceren we UniMedVL, het eerste medische geïntegreerde multimodale model voor de gelijktijdige analyse van beeldinterpretatie- en generatietaken binnen een enkele architectuur. UniMedVL behaalt superieure prestaties op vijf benchmarks voor medische beeldinterpretatie, terwijl het gespecialiseerde modellen evenaart in generatiekwaliteit over acht medische beeldvormingsmodaliteiten. Cruciaal is dat onze geïntegreerde architectuur bidirectionele kennisdeling mogelijk maakt: generatietaken verbeteren visuele begripsfeatures, wat aantoont dat het integreren van traditioneel gescheiden mogelijkheden binnen een enkel medisch raamwerk verbeteringen mogelijk maakt over diverse medische visie-taaltaken. De code is beschikbaar op https://github.com/uni-medical/UniMedVL.
English
Medical diagnostic applications require models that can process multimodal medical inputs (images, patient histories, lab results) and generate diverse outputs including both textual reports and visual content (annotations, segmentation masks, and images). Despite this need, existing medical AI systems disrupt this unified process: medical image understanding models interpret images but cannot generate visual outputs, while medical image generation models synthesize images but cannot provide textual explanations. This leads to gaps in data representation, feature integration, and task-level multimodal capabilities. To this end, we propose a multi-level framework that draws inspiration from diagnostic workflows through the Observation-Knowledge-Analysis (OKA) paradigm. Specifically, at the observation level, we construct UniMed-5M, a dataset comprising over 5.6M samples that reformat diverse unimodal data into multimodal pairs for foundational observation. At the knowledge level, we propose Progressive Curriculum Learning that systematically introduces medical multimodal knowledge. At the analysis level, we introduce UniMedVL, the first medical unified multimodal model for the simultaneous analysis of image understanding and generation tasks within a single architecture. UniMedVL achieves superior performance on five medical image understanding benchmarks, while matching specialized models in generation quality across eight medical imaging modalities. Crucially, our unified architecture enables bidirectional knowledge sharing: generation tasks enhance visual understanding features, demonstrating that integrating traditionally separate capabilities within a single medical framework unlocks improvements across diverse medical vision-language tasks. Code is available at https://github.com/uni-medical/UniMedVL.
PDF42October 22, 2025