UniBiomed: Ein universelles Grundmodell für die kontextbasierte Interpretation biomedizinischer Bilder
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation
April 30, 2025
Autoren: Linshan Wu, Yuxiang Nie, Sunan He, Jiaxin Zhuang, Hao Chen
cs.AI
Zusammenfassung
Die multimodale Interpretation biomedizinischer Bilder eröffnet neue Möglichkeiten in der biomedizinischen Bildanalyse. Konventionelle KI-Ansätze stützen sich typischerweise auf getrenntes Training, d.h. Large Language Models (LLMs) für die klinische Textgenerierung und Segmentierungsmodelle für die Zielobjektextraktion, was zu unflexiblen Einsätzen in der Praxis und einer unzureichenden Nutzung ganzheitlicher biomedizinischer Informationen führt. Vor diesem Hintergrund stellen wir UniBiomed vor, das erste universelle Foundation-Modell für fundierte biomedizinische Bildinterpretation. UniBiomed basiert auf einer neuartigen Integration eines Multi-modal Large Language Model (MLLM) und eines Segment Anything Model (SAM), wodurch die Generierung klinischer Texte und die Segmentierung entsprechender biomedizinischer Objekte für eine fundierte Interpretation effektiv vereint werden. Auf diese Weise ist UniBiomed in der Lage, eine breite Palette biomedizinischer Aufgaben über zehn verschiedene biomedizinische Bildgebungsmodalitäten hinweg zu bewältigen. Zur Entwicklung von UniBiomed haben wir einen umfangreichen Datensatz mit über 27 Millionen Tripletts aus Bildern, Annotationen und Textbeschreibungen über zehn Bildgebungsmodalitäten zusammengestellt. Umfangreiche Validierungen an 84 internen und externen Datensätzen zeigten, dass UniBiomed Spitzenleistungen in den Bereichen Segmentierung, Krankheitserkennung, regionsbewusste Diagnose, visuelle Fragebeantwortung und Berichtsgenerierung erzielt. Darüber hinaus kann UniBiomed, im Gegensatz zu früheren Modellen, die auf klinische Experten angewiesen sind, um Bilder vorzudiagnostizieren und präzise textuelle oder visuelle Prompts manuell zu erstellen, eine automatisierte und end-to-end fundierte Interpretation für die biomedizinische Bildanalyse bieten. Dies stellt einen neuartigen Paradigmenwechsel in klinischen Arbeitsabläufen dar, der die diagnostische Effizienz erheblich verbessern wird. Zusammenfassend repräsentiert UniBiomed einen neuartigen Durchbruch in der biomedizinischen KI, der leistungsstarke Fähigkeiten zur fundierten Interpretation für eine genauere und effizientere biomedizinische Bildanalyse freisetzt.
English
Multi-modal interpretation of biomedical images opens up novel opportunities
in biomedical image analysis. Conventional AI approaches typically rely on
disjointed training, i.e., Large Language Models (LLMs) for clinical text
generation and segmentation models for target extraction, which results in
inflexible real-world deployment and a failure to leverage holistic biomedical
information. To this end, we introduce UniBiomed, the first universal
foundation model for grounded biomedical image interpretation. UniBiomed is
based on a novel integration of Multi-modal Large Language Model (MLLM) and
Segment Anything Model (SAM), which effectively unifies the generation of
clinical texts and the segmentation of corresponding biomedical objects for
grounded interpretation. In this way, UniBiomed is capable of tackling a wide
range of biomedical tasks across ten diverse biomedical imaging modalities. To
develop UniBiomed, we curate a large-scale dataset comprising over 27 million
triplets of images, annotations, and text descriptions across ten imaging
modalities. Extensive validation on 84 internal and external datasets
demonstrated that UniBiomed achieves state-of-the-art performance in
segmentation, disease recognition, region-aware diagnosis, visual question
answering, and report generation. Moreover, unlike previous models that rely on
clinical experts to pre-diagnose images and manually craft precise textual or
visual prompts, UniBiomed can provide automated and end-to-end grounded
interpretation for biomedical image analysis. This represents a novel paradigm
shift in clinical workflows, which will significantly improve diagnostic
efficiency. In summary, UniBiomed represents a novel breakthrough in biomedical
AI, unlocking powerful grounded interpretation capabilities for more accurate
and efficient biomedical image analysis.