ChatPaper.aiChatPaper

BIOMEDICA : Une archive ouverte d'images médicales avec légendes, un ensemble de données et des modèles vision-langage dérivés de la littérature scientifique.

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

January 13, 2025
Auteurs: Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy
cs.AI

Résumé

Le développement des modèles vision-langage (VLM) est stimulé par des ensembles de données multimodaux à grande échelle et diversifiés. Cependant, les progrès vers des VLM biomédicaux généralistes sont limités par le manque d'ensembles de données annotés et accessibles au public dans les domaines de la biologie et de la médecine. Les efforts existants sont restreints à des domaines spécifiques, ne couvrant pas toute la diversité des connaissances biomédicales encodées dans la littérature scientifique. Pour combler cette lacune, nous présentons BIOMEDICA, un cadre extensible et open source pour extraire, annoter et sérialiser l'intégralité du sous-ensemble PubMed Central Open Access en un ensemble de données facilement accessible au public. Notre cadre produit une archive complète avec plus de 24 millions de paires texte-image uniques issues de plus de 6 millions d'articles. Des métadonnées et des annotations guidées par des experts sont également fournies. Nous démontrons l'utilité et l'accessibilité de notre ressource en publiant BMCA-CLIP, un ensemble de modèles de style CLIP pré-entraînés en continu sur l'ensemble de données BIOMEDICA via un flux, éliminant ainsi le besoin de télécharger 27 To de données localement. En moyenne, nos modèles atteignent des performances de pointe sur 40 tâches - couvrant la pathologie, la radiologie, l'ophtalmologie, la dermatologie, la chirurgie, la biologie moléculaire, la parasitologie et la biologie cellulaire - se démarquant dans la classification sans étiquette avec une amélioration moyenne de 6,56% (atteignant jusqu'à 29,8% et 17,5% respectivement en dermatologie et en ophtalmologie), et offrant une meilleure récupération texte-image, le tout en utilisant 10 fois moins de calcul. Pour favoriser la reproductibilité et la collaboration, nous mettons à disposition notre code source et notre ensemble de données pour la communauté de recherche élargie.
English
The development of vision-language models (VLMs) is driven by large-scale and diverse multimodal datasets. However, progress toward generalist biomedical VLMs is limited by the lack of annotated, publicly accessible datasets across biology and medicine. Existing efforts are restricted to narrow domains, missing the full diversity of biomedical knowledge encoded in scientific literature. To address this gap, we introduce BIOMEDICA, a scalable, open-source framework to extract, annotate, and serialize the entirety of the PubMed Central Open Access subset into an easy-to-use, publicly accessible dataset.Our framework produces a comprehensive archive with over 24 million unique image-text pairs from over 6 million articles. Metadata and expert-guided annotations are also provided. We demonstrate the utility and accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style models continuously pre-trained on the BIOMEDICA dataset via streaming, eliminating the need to download 27 TB of data locally.On average, our models achieve state-of-the-art performance across 40 tasks - spanning pathology, radiology, ophthalmology, dermatology, surgery, molecular biology, parasitology, and cell biology - excelling in zero-shot classification with a 6.56% average improvement (as high as 29.8% and 17.5% in dermatology and ophthalmology, respectively), and stronger image-text retrieval, all while using 10x less compute. To foster reproducibility and collaboration, we release our codebase and dataset for the broader research community.

Summary

AI-Generated Summary

PDF563January 14, 2025