Unimedvl: Unificando Compreensão e Geração Multimodal em Medicina Através de Observação-Conhecimento-Análise
Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis
October 17, 2025
Autores: Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He
cs.AI
Resumo
Aplicações de diagnóstico médico exigem modelos capazes de processar entradas médicas multimodais (imagens, históricos de pacientes, resultados de laboratório) e gerar saídas diversificadas, incluindo relatórios textuais e conteúdo visual (anotações, máscaras de segmentação e imagens). Apesar dessa necessidade, os sistemas de IA médica existentes fragmentam esse processo unificado: modelos de compreensão de imagens médicas interpretam imagens, mas não conseguem gerar saídas visuais, enquanto modelos de geração de imagens médicas sintetizam imagens, mas não fornecem explicações textuais. Isso resulta em lacunas na representação de dados, integração de características e capacidades multimodais em nível de tarefa. Para abordar isso, propomos uma estrutura multinível que se inspira nos fluxos de trabalho de diagnóstico por meio do paradigma Observação-Conhecimento-Análise (OKA). Especificamente, no nível de observação, construímos o UniMed-5M, um conjunto de dados com mais de 5,6 milhões de amostras que reformatam dados unimodais diversos em pares multimodais para observação fundamental. No nível de conhecimento, propomos o Aprendizado Progressivo por Currículo, que introduz sistematicamente conhecimento multimodal médico. No nível de análise, introduzimos o UniMedVL, o primeiro modelo médico unificado multimodal para a análise simultânea de tarefas de compreensão e geração de imagens em uma única arquitetura. O UniMedVL alcança desempenho superior em cinco benchmarks de compreensão de imagens médicas, enquanto iguala modelos especializados em qualidade de geração em oito modalidades de imagem médica. Crucialmente, nossa arquitetura unificada permite o compartilhamento bidirecional de conhecimento: tarefas de geração aprimoram características de compreensão visual, demonstrando que a integração de capacidades tradicionalmente separadas em um único framework médico desbloqueia melhorias em diversas tarefas de visão e linguagem médica. O código está disponível em https://github.com/uni-medical/UniMedVL.
English
Medical diagnostic applications require models that can process multimodal
medical inputs (images, patient histories, lab results) and generate diverse
outputs including both textual reports and visual content (annotations,
segmentation masks, and images). Despite this need, existing medical AI systems
disrupt this unified process: medical image understanding models interpret
images but cannot generate visual outputs, while medical image generation
models synthesize images but cannot provide textual explanations. This leads to
gaps in data representation, feature integration, and task-level multimodal
capabilities. To this end, we propose a multi-level framework that draws
inspiration from diagnostic workflows through the
Observation-Knowledge-Analysis (OKA) paradigm. Specifically, at the observation
level, we construct UniMed-5M, a dataset comprising over 5.6M samples that
reformat diverse unimodal data into multimodal pairs for foundational
observation. At the knowledge level, we propose Progressive Curriculum Learning
that systematically introduces medical multimodal knowledge. At the analysis
level, we introduce UniMedVL, the first medical unified multimodal model for
the simultaneous analysis of image understanding and generation tasks within a
single architecture. UniMedVL achieves superior performance on five medical
image understanding benchmarks, while matching specialized models in generation
quality across eight medical imaging modalities. Crucially, our unified
architecture enables bidirectional knowledge sharing: generation tasks enhance
visual understanding features, demonstrating that integrating traditionally
separate capabilities within a single medical framework unlocks improvements
across diverse medical vision-language tasks. Code is available at
https://github.com/uni-medical/UniMedVL.