ChatPaper.aiChatPaper

Unimedvl: 観察-知識-分析を通じた医療マルチモーダル理解と生成の統合

Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis

October 17, 2025
著者: Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He
cs.AI

要旨

医療診断アプリケーションでは、多様な医療データ(画像、患者歴、検査結果)を処理し、テキストレポートや視覚的コンテンツ(注釈、セグメンテーションマスク、画像)を含む多様な出力を生成できるモデルが必要とされています。しかし、既存の医療AIシステムはこの統一されたプロセスを分断しています。医療画像理解モデルは画像を解釈しますが視覚的出力を生成できず、医療画像生成モデルは画像を合成しますがテキスト説明を提供できません。これにより、データ表現、特徴統合、タスクレベルのマルチモーダル能力にギャップが生じています。この問題に対処するため、我々は診断ワークフローから着想を得た「Observation-Knowledge-Analysis(OKA)」パラダイムに基づくマルチレベルフレームワークを提案します。具体的には、観察レベルでは、多様なユニモーダルデータをマルチモーダルペアに再フォーマットした5.6M以上のサンプルを含むUniMed-5Mデータセットを構築します。知識レベルでは、医療マルチモーダル知識を体系的に導入するProgressive Curriculum Learningを提案します。分析レベルでは、単一アーキテクチャ内で画像理解と生成タスクを同時に分析する初の医療統一マルチモーダルモデルUniMedVLを導入します。UniMedVLは5つの医療画像理解ベンチマークで優れた性能を達成し、8つの医療画像モダリティにおいて専門モデルと同等の生成品質を実現します。重要なことに、我々の統一アーキテクチャは双方向の知識共有を可能にします。生成タスクが視覚理解特徴を強化し、従来分離されていた能力を単一の医療フレームワークに統合することで、多様な医療視覚言語タスク全体で改善がもたらされることを示しています。コードはhttps://github.com/uni-medical/UniMedVLで公開されています。
English
Medical diagnostic applications require models that can process multimodal medical inputs (images, patient histories, lab results) and generate diverse outputs including both textual reports and visual content (annotations, segmentation masks, and images). Despite this need, existing medical AI systems disrupt this unified process: medical image understanding models interpret images but cannot generate visual outputs, while medical image generation models synthesize images but cannot provide textual explanations. This leads to gaps in data representation, feature integration, and task-level multimodal capabilities. To this end, we propose a multi-level framework that draws inspiration from diagnostic workflows through the Observation-Knowledge-Analysis (OKA) paradigm. Specifically, at the observation level, we construct UniMed-5M, a dataset comprising over 5.6M samples that reformat diverse unimodal data into multimodal pairs for foundational observation. At the knowledge level, we propose Progressive Curriculum Learning that systematically introduces medical multimodal knowledge. At the analysis level, we introduce UniMedVL, the first medical unified multimodal model for the simultaneous analysis of image understanding and generation tasks within a single architecture. UniMedVL achieves superior performance on five medical image understanding benchmarks, while matching specialized models in generation quality across eight medical imaging modalities. Crucially, our unified architecture enables bidirectional knowledge sharing: generation tasks enhance visual understanding features, demonstrating that integrating traditionally separate capabilities within a single medical framework unlocks improvements across diverse medical vision-language tasks. Code is available at https://github.com/uni-medical/UniMedVL.
PDF42October 22, 2025