ChatPaper.aiChatPaper

Unimedvl: Vereinheitlichung des medizinischen multimodalen Verständnisses und der Generierung durch Beobachtung-Wissen-Analyse

Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis

October 17, 2025
papers.authors: Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He
cs.AI

papers.abstract

Medizinische Diagnoseanwendungen erfordern Modelle, die multimodale medizinische Eingaben (Bilder, Patientenanamnesen, Laborergebnisse) verarbeiten und vielfältige Ausgaben erzeugen können, einschließlich textueller Berichte und visueller Inhalte (Annotationen, Segmentierungsmasken und Bilder). Trotz dieses Bedarfs unterbrechen bestehende medizinische KI-Systeme diesen einheitlichen Prozess: Modelle zur medizinischen Bildinterpretation verstehen Bilder, können aber keine visuellen Ausgaben erzeugen, während Modelle zur medizinischen Bildgenerierung Bilder synthetisieren, aber keine textuellen Erklärungen liefern können. Dies führt zu Lücken in der Datenrepräsentation, der Feature-Integration und den multimodalen Fähigkeiten auf Aufgabenebene. Daher schlagen wir ein mehrstufiges Framework vor, das sich von diagnostischen Arbeitsabläufen durch das Beobachtung-Wissen-Analyse (OKA)-Paradigma inspirieren lässt. Konkret konstruieren wir auf der Beobachtungsebene UniMed-5M, einen Datensatz mit über 5,6 Millionen Proben, der diverse unimodale Daten in multimodale Paare umformatiert, um grundlegende Beobachtungen zu ermöglichen. Auf der Wissenebene schlagen wir Progressives Curriculum Learning vor, das systematisch medizinisches multimodales Wissen einführt. Auf der Analyseebene stellen wir UniMedVL vor, das erste medizinische einheitliche multimodale Modell zur gleichzeitigen Analyse von Bildverständnis- und Generierungsaufgaben innerhalb einer einzigen Architektur. UniMedVL erzielt überragende Leistungen in fünf Benchmarks zur medizinischen Bildinterpretation und erreicht die Generierungsqualität spezialisierter Modelle über acht medizinische Bildgebungsmodalitäten hinweg. Entscheidend ist, dass unsere einheitliche Architektur bidirektionalen Wissensaustausch ermöglicht: Generierungsaufgaben verbessern visuelle Verständnis-Features, was zeigt, dass die Integration traditionell getrennter Fähigkeiten innerhalb eines einzigen medizinischen Frameworks Verbesserungen über diverse medizinische Bild-Sprach-Aufgaben hinweg freisetzt. Der Code ist verfügbar unter https://github.com/uni-medical/UniMedVL.
English
Medical diagnostic applications require models that can process multimodal medical inputs (images, patient histories, lab results) and generate diverse outputs including both textual reports and visual content (annotations, segmentation masks, and images). Despite this need, existing medical AI systems disrupt this unified process: medical image understanding models interpret images but cannot generate visual outputs, while medical image generation models synthesize images but cannot provide textual explanations. This leads to gaps in data representation, feature integration, and task-level multimodal capabilities. To this end, we propose a multi-level framework that draws inspiration from diagnostic workflows through the Observation-Knowledge-Analysis (OKA) paradigm. Specifically, at the observation level, we construct UniMed-5M, a dataset comprising over 5.6M samples that reformat diverse unimodal data into multimodal pairs for foundational observation. At the knowledge level, we propose Progressive Curriculum Learning that systematically introduces medical multimodal knowledge. At the analysis level, we introduce UniMedVL, the first medical unified multimodal model for the simultaneous analysis of image understanding and generation tasks within a single architecture. UniMedVL achieves superior performance on five medical image understanding benchmarks, while matching specialized models in generation quality across eight medical imaging modalities. Crucially, our unified architecture enables bidirectional knowledge sharing: generation tasks enhance visual understanding features, demonstrating that integrating traditionally separate capabilities within a single medical framework unlocks improvements across diverse medical vision-language tasks. Code is available at https://github.com/uni-medical/UniMedVL.
PDF42October 22, 2025