UniBiomed : Un modèle de base universel pour l'interprétation d'images biomédicales contextualisées
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation
April 30, 2025
Auteurs: Linshan Wu, Yuxiang Nie, Sunan He, Jiaxin Zhuang, Hao Chen
cs.AI
Résumé
L'interprétation multimodale des images biomédicales ouvre de nouvelles opportunités dans l'analyse d'images biomédicales. Les approches conventionnelles de l'IA reposent généralement sur un apprentissage disjoint, c'est-à-dire des modèles de langage de grande envergure (LLMs) pour la génération de textes cliniques et des modèles de segmentation pour l'extraction de cibles, ce qui entraîne un déploiement peu flexible dans le monde réel et une incapacité à exploiter les informations biomédicales holistiques. À cette fin, nous introduisons UniBiomed, le premier modèle de fondation universel pour l'interprétation ancrée des images biomédicales. UniBiomed est basé sur une intégration novatrice d'un modèle de langage multimodale de grande envergure (MLLM) et d'un modèle de segmentation universel (SAM), qui unifie efficacement la génération de textes cliniques et la segmentation des objets biomédicales correspondants pour une interprétation ancrée. De cette manière, UniBiomed est capable de traiter une large gamme de tâches biomédicales à travers dix modalités d'imagerie biomédicale diverses. Pour développer UniBiomed, nous avons constitué un ensemble de données à grande échelle comprenant plus de 27 millions de triplets d'images, d'annotations et de descriptions textuelles à travers dix modalités d'imagerie. Une validation approfondie sur 84 ensembles de données internes et externes a démontré qu'UniBiomed atteint des performances de pointe en segmentation, reconnaissance de maladies, diagnostic basé sur les régions, réponse à des questions visuelles et génération de rapports. De plus, contrairement aux modèles précédents qui reposent sur des experts cliniques pour pré-diagnostiquer les images et créer manuellement des invites textuelles ou visuelles précises, UniBiomed peut fournir une interprétation ancrée automatisée et de bout en bout pour l'analyse d'images biomédicales. Cela représente un nouveau changement de paradigme dans les workflows cliniques, qui améliorera considérablement l'efficacité diagnostique. En résumé, UniBiomed représente une percée novatrice dans l'IA biomédicale, débloquant des capacités puissantes d'interprétation ancrée pour une analyse d'images biomédicales plus précise et plus efficace.
English
Multi-modal interpretation of biomedical images opens up novel opportunities
in biomedical image analysis. Conventional AI approaches typically rely on
disjointed training, i.e., Large Language Models (LLMs) for clinical text
generation and segmentation models for target extraction, which results in
inflexible real-world deployment and a failure to leverage holistic biomedical
information. To this end, we introduce UniBiomed, the first universal
foundation model for grounded biomedical image interpretation. UniBiomed is
based on a novel integration of Multi-modal Large Language Model (MLLM) and
Segment Anything Model (SAM), which effectively unifies the generation of
clinical texts and the segmentation of corresponding biomedical objects for
grounded interpretation. In this way, UniBiomed is capable of tackling a wide
range of biomedical tasks across ten diverse biomedical imaging modalities. To
develop UniBiomed, we curate a large-scale dataset comprising over 27 million
triplets of images, annotations, and text descriptions across ten imaging
modalities. Extensive validation on 84 internal and external datasets
demonstrated that UniBiomed achieves state-of-the-art performance in
segmentation, disease recognition, region-aware diagnosis, visual question
answering, and report generation. Moreover, unlike previous models that rely on
clinical experts to pre-diagnose images and manually craft precise textual or
visual prompts, UniBiomed can provide automated and end-to-end grounded
interpretation for biomedical image analysis. This represents a novel paradigm
shift in clinical workflows, which will significantly improve diagnostic
efficiency. In summary, UniBiomed represents a novel breakthrough in biomedical
AI, unlocking powerful grounded interpretation capabilities for more accurate
and efficient biomedical image analysis.