UniBiomed: Um Modelo de Base Universal para Interpretação de Imagens Biomédicas Fundamentada
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation
April 30, 2025
Autores: Linshan Wu, Yuxiang Nie, Sunan He, Jiaxin Zhuang, Hao Chen
cs.AI
Resumo
A interpretação multimodal de imagens biomédicas abre novas oportunidades na análise de imagens biomédicas. As abordagens convencionais de IA geralmente dependem de treinamentos desconexos, ou seja, modelos de linguagem de grande escala (LLMs) para geração de textos clínicos e modelos de segmentação para extração de alvos, o que resulta em uma implantação inflexível no mundo real e na incapacidade de aproveitar informações biomédicas holísticas. Para isso, apresentamos o UniBiomed, o primeiro modelo de base universal para interpretação fundamentada de imagens biomédicas. O UniBiomed é baseado em uma nova integração de Modelo de Linguagem de Grande Escala Multimodal (MLLM) e Modelo de Segmentação de Qualquer Coisa (SAM), que efetivamente unifica a geração de textos clínicos e a segmentação de objetos biomédicos correspondentes para uma interpretação fundamentada. Dessa forma, o UniBiomed é capaz de lidar com uma ampla gama de tarefas biomédicas em dez modalidades diversas de imagens biomédicas. Para desenvolver o UniBiomed, organizamos um conjunto de dados em grande escala composto por mais de 27 milhões de triplas de imagens, anotações e descrições textuais em dez modalidades de imagem. Uma validação extensa em 84 conjuntos de dados internos e externos demonstrou que o UniBiomed alcança desempenho de ponta em segmentação, reconhecimento de doenças, diagnóstico consciente da região, resposta a perguntas visuais e geração de relatórios. Além disso, ao contrário de modelos anteriores que dependem de especialistas clínicos para pré-diagnosticar imagens e criar manualmente prompts textuais ou visuais precisos, o UniBiomed pode fornecer uma interpretação fundamentada automatizada e de ponta a ponta para análise de imagens biomédicas. Isso representa uma nova mudança de paradigma nos fluxos de trabalho clínicos, que melhorará significativamente a eficiência diagnóstica. Em resumo, o UniBiomed representa um novo avanço na IA biomédica, desbloqueando poderosas capacidades de interpretação fundamentada para uma análise de imagens biomédicas mais precisa e eficiente.
English
Multi-modal interpretation of biomedical images opens up novel opportunities
in biomedical image analysis. Conventional AI approaches typically rely on
disjointed training, i.e., Large Language Models (LLMs) for clinical text
generation and segmentation models for target extraction, which results in
inflexible real-world deployment and a failure to leverage holistic biomedical
information. To this end, we introduce UniBiomed, the first universal
foundation model for grounded biomedical image interpretation. UniBiomed is
based on a novel integration of Multi-modal Large Language Model (MLLM) and
Segment Anything Model (SAM), which effectively unifies the generation of
clinical texts and the segmentation of corresponding biomedical objects for
grounded interpretation. In this way, UniBiomed is capable of tackling a wide
range of biomedical tasks across ten diverse biomedical imaging modalities. To
develop UniBiomed, we curate a large-scale dataset comprising over 27 million
triplets of images, annotations, and text descriptions across ten imaging
modalities. Extensive validation on 84 internal and external datasets
demonstrated that UniBiomed achieves state-of-the-art performance in
segmentation, disease recognition, region-aware diagnosis, visual question
answering, and report generation. Moreover, unlike previous models that rely on
clinical experts to pre-diagnose images and manually craft precise textual or
visual prompts, UniBiomed can provide automated and end-to-end grounded
interpretation for biomedical image analysis. This represents a novel paradigm
shift in clinical workflows, which will significantly improve diagnostic
efficiency. In summary, UniBiomed represents a novel breakthrough in biomedical
AI, unlocking powerful grounded interpretation capabilities for more accurate
and efficient biomedical image analysis.