UniBiomed: Универсальная базовая модель для интерпретации заземленных биомедицинских изображений
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation
April 30, 2025
Авторы: Linshan Wu, Yuxiang Nie, Sunan He, Jiaxin Zhuang, Hao Chen
cs.AI
Аннотация
Мультимодальная интерпретация биомедицинских изображений открывает новые возможности в анализе биомедицинских данных. Традиционные подходы на основе ИИ обычно полагаются на раздельное обучение, например, использование крупных языковых моделей (LLM) для генерации клинических текстов и моделей сегментации для извлечения целевых объектов, что приводит к негибкому применению в реальных условиях и неспособности использовать целостную биомедицинскую информацию. В связи с этим мы представляем UniBiomed — первую универсальную базовую модель для обоснованной интерпретации биомедицинских изображений. UniBiomed основана на новой интеграции мультимодальной крупной языковой модели (MLLM) и модели сегментации Segment Anything Model (SAM), что эффективно объединяет генерацию клинических текстов и сегментацию соответствующих биомедицинских объектов для обоснованной интерпретации. Таким образом, UniBiomed способна решать широкий спектр биомедицинских задач в десяти различных модальностях визуализации. Для разработки UniBiomed мы создали масштабный набор данных, включающий более 27 миллионов триплетов изображений, аннотаций и текстовых описаний для десяти модальностей визуализации. Обширная валидация на 84 внутренних и внешних наборах данных показала, что UniBiomed достигает передовых результатов в сегментации, распознавании заболеваний, регионально-ориентированной диагностике, визуальном ответе на вопросы и генерации отчетов. Более того, в отличие от предыдущих моделей, которые требуют предварительной диагностики изображений клиническими экспертами и ручного создания точных текстовых или визуальных подсказок, UniBiomed способна предоставлять автоматизированную и сквозную обоснованную интерпретацию для анализа биомедицинских изображений. Это представляет собой новый сдвиг парадигмы в клинических процессах, что значительно повысит эффективность диагностики. В заключение, UniBiomed представляет собой новый прорыв в области биомедицинского ИИ, открывая мощные возможности для более точного и эффективного анализа биомедицинских изображений.
English
Multi-modal interpretation of biomedical images opens up novel opportunities
in biomedical image analysis. Conventional AI approaches typically rely on
disjointed training, i.e., Large Language Models (LLMs) for clinical text
generation and segmentation models for target extraction, which results in
inflexible real-world deployment and a failure to leverage holistic biomedical
information. To this end, we introduce UniBiomed, the first universal
foundation model for grounded biomedical image interpretation. UniBiomed is
based on a novel integration of Multi-modal Large Language Model (MLLM) and
Segment Anything Model (SAM), which effectively unifies the generation of
clinical texts and the segmentation of corresponding biomedical objects for
grounded interpretation. In this way, UniBiomed is capable of tackling a wide
range of biomedical tasks across ten diverse biomedical imaging modalities. To
develop UniBiomed, we curate a large-scale dataset comprising over 27 million
triplets of images, annotations, and text descriptions across ten imaging
modalities. Extensive validation on 84 internal and external datasets
demonstrated that UniBiomed achieves state-of-the-art performance in
segmentation, disease recognition, region-aware diagnosis, visual question
answering, and report generation. Moreover, unlike previous models that rely on
clinical experts to pre-diagnose images and manually craft precise textual or
visual prompts, UniBiomed can provide automated and end-to-end grounded
interpretation for biomedical image analysis. This represents a novel paradigm
shift in clinical workflows, which will significantly improve diagnostic
efficiency. In summary, UniBiomed represents a novel breakthrough in biomedical
AI, unlocking powerful grounded interpretation capabilities for more accurate
and efficient biomedical image analysis.