BIOMEDICA: Un Archivo Abierto de Imágenes y Subtítulos Biomédicos, Conjunto de Datos y Modelos de Visión-Lenguaje Derivados de la Literatura Científica
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature
January 13, 2025
Autores: Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy
cs.AI
Resumen
El desarrollo de modelos de visión y lenguaje (VLMs) está impulsado por conjuntos de datos multimodales a gran escala y diversos. Sin embargo, el progreso hacia VLMs biomédicos generalistas se ve limitado por la falta de conjuntos de datos anotados y públicamente accesibles en biología y medicina. Los esfuerzos existentes se restringen a dominios específicos, sin abarcar toda la diversidad del conocimiento biomédico codificado en la literatura científica. Para abordar esta brecha, presentamos BIOMEDICA, un marco escalable de código abierto para extraer, anotar y serializar la totalidad del subconjunto de acceso abierto de PubMed Central en un conjunto de datos de fácil acceso y público. Nuestro marco produce un archivo completo con más de 24 millones de pares únicos de imágenes y texto de más de 6 millones de artículos. También se proporcionan metadatos y anotaciones guiadas por expertos. Demostramos la utilidad y accesibilidad de nuestro recurso al lanzar BMCA-CLIP, un conjunto de modelos de estilo CLIP pre-entrenados de forma continua en el conjunto de datos de BIOMEDICA a través de transmisión, eliminando la necesidad de descargar 27 TB de datos localmente. En promedio, nuestros modelos logran un rendimiento de vanguardia en 40 tareas, abarcando patología, radiología, oftalmología, dermatología, cirugía, biología molecular, parasitología y biología celular, destacándose en la clasificación de cero disparos con una mejora promedio del 6.56% (tan alta como 29.8% y 17.5% en dermatología y oftalmología, respectivamente), y una recuperación de imagen-texto más sólida, todo ello utilizando 10 veces menos computación. Para fomentar la reproducibilidad y la colaboración, publicamos nuestro código fuente y conjunto de datos para la comunidad investigadora en general.
English
The development of vision-language models (VLMs) is driven by large-scale and
diverse multimodal datasets. However, progress toward generalist biomedical
VLMs is limited by the lack of annotated, publicly accessible datasets across
biology and medicine. Existing efforts are restricted to narrow domains,
missing the full diversity of biomedical knowledge encoded in scientific
literature. To address this gap, we introduce BIOMEDICA, a scalable,
open-source framework to extract, annotate, and serialize the entirety of the
PubMed Central Open Access subset into an easy-to-use, publicly accessible
dataset.Our framework produces a comprehensive archive with over 24 million
unique image-text pairs from over 6 million articles. Metadata and
expert-guided annotations are also provided. We demonstrate the utility and
accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style
models continuously pre-trained on the BIOMEDICA dataset via streaming,
eliminating the need to download 27 TB of data locally.On average, our models
achieve state-of-the-art performance across 40 tasks - spanning pathology,
radiology, ophthalmology, dermatology, surgery, molecular biology,
parasitology, and cell biology - excelling in zero-shot classification with a
6.56% average improvement (as high as 29.8% and 17.5% in dermatology and
ophthalmology, respectively), and stronger image-text retrieval, all while
using 10x less compute. To foster reproducibility and collaboration, we release
our codebase and dataset for the broader research community.Summary
AI-Generated Summary