ChatPaper.aiChatPaper

BIOMEDICA: Een Open Biomedische Afbeelding-Onderschriftarchief, Dataset en Visie-Taalmodellen Afgeleid van Wetenschappelijke Literatuur

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

January 13, 2025
Auteurs: Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy
cs.AI

Samenvatting

De ontwikkeling van visie-taalmodellen (VLM's) wordt gedreven door grootschalige en diverse multimodale datasets. De vooruitgang naar generalistische biomedische VLM's wordt echter beperkt door het gebrek aan geannoteerde, openbaar toegankelijke datasets over biologie en geneeskunde. Bestaande inspanningen zijn beperkt tot smalle domeinen, waarbij de volledige diversiteit van biomedische kennis gecodeerd in wetenschappelijke literatuur ontbreekt. Om deze lacune aan te pakken, introduceren we BIOMEDICA, een schaalbaar, open-source framework om de gehele PubMed Central Open Access subset te extraheren, annoteren en serialiseren tot een gemakkelijk te gebruiken, openbaar toegankelijke dataset. Ons framework produceert een uitgebreid archief met meer dan 24 miljoen unieke afbeelding-tekstparen uit meer dan 6 miljoen artikelen. Metadata en door experts geleide annotaties worden ook verstrekt. We tonen de bruikbaarheid en toegankelijkheid van onze bron aan door BMCA-CLIP uit te brengen, een reeks CLIP-stijlmodellen die continu worden voorgeleerd op de BIOMEDICA-dataset via streaming, waardoor de noodzaak om 27 TB aan gegevens lokaal te downloaden, wordt geëlimineerd. Gemiddeld behalen onze modellen state-of-the-art prestaties over 40 taken - variërend van pathologie, radiologie, oogheelkunde, dermatologie, chirurgie, moleculaire biologie, parasitologie en celbiologie - uitblinkend in zero-shot classificatie met een gemiddelde verbetering van 6,56% (zo hoog als 29,8% en 17,5% respectievelijk in dermatologie en oogheelkunde), en betere afbeelding-tekst ophaling, dit alles terwijl er 10x minder berekeningen worden gebruikt. Om reproduceerbaarheid en samenwerking te bevorderen, stellen we onze codebase en dataset beschikbaar voor de bredere onderzoeksgemeenschap.
English
The development of vision-language models (VLMs) is driven by large-scale and diverse multimodal datasets. However, progress toward generalist biomedical VLMs is limited by the lack of annotated, publicly accessible datasets across biology and medicine. Existing efforts are restricted to narrow domains, missing the full diversity of biomedical knowledge encoded in scientific literature. To address this gap, we introduce BIOMEDICA, a scalable, open-source framework to extract, annotate, and serialize the entirety of the PubMed Central Open Access subset into an easy-to-use, publicly accessible dataset.Our framework produces a comprehensive archive with over 24 million unique image-text pairs from over 6 million articles. Metadata and expert-guided annotations are also provided. We demonstrate the utility and accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style models continuously pre-trained on the BIOMEDICA dataset via streaming, eliminating the need to download 27 TB of data locally.On average, our models achieve state-of-the-art performance across 40 tasks - spanning pathology, radiology, ophthalmology, dermatology, surgery, molecular biology, parasitology, and cell biology - excelling in zero-shot classification with a 6.56% average improvement (as high as 29.8% and 17.5% in dermatology and ophthalmology, respectively), and stronger image-text retrieval, all while using 10x less compute. To foster reproducibility and collaboration, we release our codebase and dataset for the broader research community.

Summary

AI-Generated Summary

PDF563January 14, 2025