ChatPaper.aiChatPaper

Unimedvl: 관찰-지식-분석을 통한 의료 다중모달 이해 및 생성의 통합

Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis

October 17, 2025
저자: Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He
cs.AI

초록

의료 진단 애플리케이션은 다중 모달 의료 입력(이미지, 환자 기록, 검사 결과)을 처리하고 텍스트 보고서와 시각적 콘텐츠(주석, 분할 마스크, 이미지)를 포함한 다양한 출력을 생성할 수 있는 모델을 필요로 합니다. 이러한 필요에도 불구하고, 기존의 의료 AI 시스템은 이 통합 프로세스를 단절시킵니다: 의료 이미지 이해 모델은 이미지를 해석하지만 시각적 출력을 생성할 수 없고, 의료 이미지 생성 모델은 이미지를 합성하지만 텍스트 설명을 제공할 수 없습니다. 이로 인해 데이터 표현, 특징 통합, 작업 수준의 다중 모달 능력에 격차가 발생합니다. 이를 해결하기 위해, 우리는 관찰-지식-분석(OKA) 패러다임을 통해 진단 워크플로우에서 영감을 얻은 다중 수준 프레임워크를 제안합니다. 구체적으로, 관찰 수준에서는 560만 개 이상의 샘플로 구성된 UniMed-5M 데이터셋을 구축하여 다양한 단일 모달 데이터를 다중 모달 쌍으로 재구성하여 기초 관찰을 가능하게 합니다. 지식 수준에서는 의료 다중 모달 지식을 체계적으로 도입하는 Progressive Curriculum Learning을 제안합니다. 분석 수준에서는 단일 아키텍처 내에서 이미지 이해 및 생성 작업을 동시에 분석할 수 있는 최초의 의료 통합 다중 모달 모델인 UniMedVL을 소개합니다. UniMedVL은 다섯 개의 의료 이미지 이해 벤치마크에서 우수한 성능을 달성하며, 여덟 개의 의료 이미징 모달리티에서 특화된 모델과 동등한 생성 품질을 보입니다. 무엇보다도, 우리의 통합 아키텍처는 양방향 지식 공유를 가능하게 합니다: 생성 작업은 시각적 이해 특징을 강화하며, 전통적으로 분리된 능력을 단일 의료 프레임워크 내에서 통합함으로써 다양한 의료 시각-언어 작업 전반에 걸쳐 개선을 이끌어냅니다. 코드는 https://github.com/uni-medical/UniMedVL에서 확인할 수 있습니다.
English
Medical diagnostic applications require models that can process multimodal medical inputs (images, patient histories, lab results) and generate diverse outputs including both textual reports and visual content (annotations, segmentation masks, and images). Despite this need, existing medical AI systems disrupt this unified process: medical image understanding models interpret images but cannot generate visual outputs, while medical image generation models synthesize images but cannot provide textual explanations. This leads to gaps in data representation, feature integration, and task-level multimodal capabilities. To this end, we propose a multi-level framework that draws inspiration from diagnostic workflows through the Observation-Knowledge-Analysis (OKA) paradigm. Specifically, at the observation level, we construct UniMed-5M, a dataset comprising over 5.6M samples that reformat diverse unimodal data into multimodal pairs for foundational observation. At the knowledge level, we propose Progressive Curriculum Learning that systematically introduces medical multimodal knowledge. At the analysis level, we introduce UniMedVL, the first medical unified multimodal model for the simultaneous analysis of image understanding and generation tasks within a single architecture. UniMedVL achieves superior performance on five medical image understanding benchmarks, while matching specialized models in generation quality across eight medical imaging modalities. Crucially, our unified architecture enables bidirectional knowledge sharing: generation tasks enhance visual understanding features, demonstrating that integrating traditionally separate capabilities within a single medical framework unlocks improvements across diverse medical vision-language tasks. Code is available at https://github.com/uni-medical/UniMedVL.
PDF42October 22, 2025