BIOMEDICA: Открытый архив изображений и подписей биомедицинских изображений, набор данных и модели видения-языка, полученные из научной литературы.
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
January 13, 2025
Авторы: Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy
cs.AI
Аннотация
Развитие моделей видео-языка (VLM) стимулируется масштабными и разнообразными мультимодальными наборами данных. Однако прогресс в создании универсальных биомедицинских VLM ограничен отсутствием аннотированных, публично доступных наборов данных по биологии и медицине. Существующие усилия ограничены узкими областями, не охватывая полного разнообразия биомедицинских знаний, закодированных в научной литературе. Для решения этого пробела мы представляем BIOMEDICA, масштабную, открытую платформу для извлечения, аннотирования и сериализации всего набора данных PubMed Central Open Access в удобный для использования, публично доступный набор данных. Наша платформа создает обширный архив с более чем 24 миллионами уникальных пар изображений и текста из более чем 6 миллионов статей. Также предоставляются метаданные и аннотации, разработанные экспертами. Мы демонстрируем полезность и доступность нашего ресурса, выпустив BMCA-CLIP, набор моделей в стиле CLIP, непрерывно предварительно обученных на наборе данных BIOMEDICA через потоковую передачу, что устраняет необходимость загружать 27 ТБ данных локально. В среднем наши модели достигают передовых показателей по 40 задачам - включая патологию, радиологию, офтальмологию, дерматологию, хирургию, молекулярную биологию, паразитологию и клеточную биологию - превосходя в классификации с нулевой настройкой среднее улучшение в 6,56% (достигая 29,8% и 17,5% в дерматологии и офтальмологии соответственно), а также обладая более сильным поиском изображений и текста, используя в 10 раз меньше вычислительных ресурсов. Для содействия воспроизводимости и сотрудничества мы предоставляем наш код и набор данных для широкого научного сообщества.
English
The development of vision-language models (VLMs) is driven by large-scale and
diverse multimodal datasets. However, progress toward generalist biomedical
VLMs is limited by the lack of annotated, publicly accessible datasets across
biology and medicine. Existing efforts are restricted to narrow domains,
missing the full diversity of biomedical knowledge encoded in scientific
literature. To address this gap, we introduce BIOMEDICA, a scalable,
open-source framework to extract, annotate, and serialize the entirety of the
PubMed Central Open Access subset into an easy-to-use, publicly accessible
dataset.Our framework produces a comprehensive archive with over 24 million
unique image-text pairs from over 6 million articles. Metadata and
expert-guided annotations are also provided. We demonstrate the utility and
accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style
models continuously pre-trained on the BIOMEDICA dataset via streaming,
eliminating the need to download 27 TB of data locally.On average, our models
achieve state-of-the-art performance across 40 tasks - spanning pathology,
radiology, ophthalmology, dermatology, surgery, molecular biology,
parasitology, and cell biology - excelling in zero-shot classification with a
6.56% average improvement (as high as 29.8% and 17.5% in dermatology and
ophthalmology, respectively), and stronger image-text retrieval, all while
using 10x less compute. To foster reproducibility and collaboration, we release
our codebase and dataset for the broader research community.Summary
AI-Generated Summary