UniBiomed: Een Universeel Fundamentmodel voor Gegronde Interpretatie van Biomedische Beelden
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation
April 30, 2025
Auteurs: Linshan Wu, Yuxiang Nie, Sunan He, Jiaxin Zhuang, Hao Chen
cs.AI
Samenvatting
Multimodale interpretatie van biomedische afbeeldingen opent nieuwe mogelijkheden in biomedische beeldanalyse. Traditionele AI-benaderingen vertrouwen doorgaans op gescheiden training, zoals Large Language Models (LLMs) voor het genereren van klinische teksten en segmentatiemodellen voor het extraheren van doelen, wat resulteert in onflexibele inzet in de praktijk en het niet benutten van holistische biomedische informatie. Daarom introduceren we UniBiomed, het eerste universele foundation-model voor gegronde interpretatie van biomedische afbeeldingen. UniBiomed is gebaseerd op een nieuwe integratie van een Multimodaal Large Language Model (MLLM) en het Segment Anything Model (SAM), wat het genereren van klinische teksten en de segmentatie van bijbehorende biomedische objecten effectief verenigt voor gegronde interpretatie. Op deze manier is UniBiomed in staat om een breed scala aan biomedische taken aan te pakken over tien diverse biomedische beeldmodaliteiten. Voor de ontwikkeling van UniBiomed hebben we een grootschalige dataset samengesteld met meer dan 27 miljoen tripletten van afbeeldingen, annotaties en tekstbeschrijvingen over tien beeldmodaliteiten. Uitgebreide validatie op 84 interne en externe datasets toonde aan dat UniBiomed state-of-the-art prestaties behaalt in segmentatie, ziekteherkenning, regio-gerichte diagnose, visuele vraagbeantwoording en rapportgeneratie. Bovendien kunnen, in tegenstelling tot eerdere modellen die vertrouwen op klinische experts om afbeeldingen vooraf te diagnosticeren en handmatig precieze tekstuele of visuele prompts te maken, UniBiomed geautomatiseerde en end-to-end gegronde interpretatie bieden voor biomedische beeldanalyse. Dit vertegenwoordigt een nieuwe paradigmaverschuiving in klinische workflows, wat de diagnostische efficiëntie aanzienlijk zal verbeteren. Samengevat vertegenwoordigt UniBiomed een nieuwe doorbraak in biomedische AI, waarbij krachtige gegronde interpretatiemogelijkheden worden ontsloten voor nauwkeurigere en efficiëntere biomedische beeldanalyse.
English
Multi-modal interpretation of biomedical images opens up novel opportunities
in biomedical image analysis. Conventional AI approaches typically rely on
disjointed training, i.e., Large Language Models (LLMs) for clinical text
generation and segmentation models for target extraction, which results in
inflexible real-world deployment and a failure to leverage holistic biomedical
information. To this end, we introduce UniBiomed, the first universal
foundation model for grounded biomedical image interpretation. UniBiomed is
based on a novel integration of Multi-modal Large Language Model (MLLM) and
Segment Anything Model (SAM), which effectively unifies the generation of
clinical texts and the segmentation of corresponding biomedical objects for
grounded interpretation. In this way, UniBiomed is capable of tackling a wide
range of biomedical tasks across ten diverse biomedical imaging modalities. To
develop UniBiomed, we curate a large-scale dataset comprising over 27 million
triplets of images, annotations, and text descriptions across ten imaging
modalities. Extensive validation on 84 internal and external datasets
demonstrated that UniBiomed achieves state-of-the-art performance in
segmentation, disease recognition, region-aware diagnosis, visual question
answering, and report generation. Moreover, unlike previous models that rely on
clinical experts to pre-diagnose images and manually craft precise textual or
visual prompts, UniBiomed can provide automated and end-to-end grounded
interpretation for biomedical image analysis. This represents a novel paradigm
shift in clinical workflows, which will significantly improve diagnostic
efficiency. In summary, UniBiomed represents a novel breakthrough in biomedical
AI, unlocking powerful grounded interpretation capabilities for more accurate
and efficient biomedical image analysis.