BIOMEDICA: Un Archivo Abierto de Imágenes y Subtítulos Biomédicos, Conjunto de Datos y Modelos de Visión-Lenguaje Derivados de la Literatura Científica

Resumen

El desarrollo de modelos de visión y lenguaje (VLMs) está impulsado por conjuntos de datos multimodales a gran escala y diversos. Sin embargo, el progreso hacia VLMs biomédicos generalistas se ve limitado por la falta de conjuntos de datos anotados y públicamente accesibles en biología y medicina. Los esfuerzos existentes se restringen a dominios específicos, sin abarcar toda la diversidad del conocimiento biomédico codificado en la literatura científica. Para abordar esta brecha, presentamos BIOMEDICA, un marco escalable de código abierto para extraer, anotar y serializar la totalidad del subconjunto de acceso abierto de PubMed Central en un conjunto de datos de fácil acceso y público. Nuestro marco produce un archivo completo con más de 24 millones de pares únicos de imágenes y texto de más de 6 millones de artículos. También se proporcionan metadatos y anotaciones guiadas por expertos. Demostramos la utilidad y accesibilidad de nuestro recurso al lanzar BMCA-CLIP, un conjunto de modelos de estilo CLIP pre-entrenados de forma continua en el conjunto de datos de BIOMEDICA a través de transmisión, eliminando la necesidad de descargar 27 TB de datos localmente. En promedio, nuestros modelos logran un rendimiento de vanguardia en 40 tareas, abarcando patología, radiología, oftalmología, dermatología, cirugía, biología molecular, parasitología y biología celular, destacándose en la clasificación de cero disparos con una mejora promedio del 6.56% (tan alta como 29.8% y 17.5% en dermatología y oftalmología, respectivamente), y una recuperación de imagen-texto más sólida, todo ello utilizando 10 veces menos computación. Para fomentar la reproducibilidad y la colaboración, publicamos nuestro código fuente y conjunto de datos para la comunidad investigadora en general.

English

The development of vision-language models (VLMs) is driven by large-scale and diverse multimodal datasets. However, progress toward generalist biomedical VLMs is limited by the lack of annotated, publicly accessible datasets across biology and medicine. Existing efforts are restricted to narrow domains, missing the full diversity of biomedical knowledge encoded in scientific literature. To address this gap, we introduce BIOMEDICA, a scalable, open-source framework to extract, annotate, and serialize the entirety of the PubMed Central Open Access subset into an easy-to-use, publicly accessible dataset.Our framework produces a comprehensive archive with over 24 million unique image-text pairs from over 6 million articles. Metadata and expert-guided annotations are also provided. We demonstrate the utility and accessibility of our resource by releasing BMCA-CLIP, a suite of CLIP-style models continuously pre-trained on the BIOMEDICA dataset via streaming, eliminating the need to download 27 TB of data locally.On average, our models achieve state-of-the-art performance across 40 tasks - spanning pathology, radiology, ophthalmology, dermatology, surgery, molecular biology, parasitology, and cell biology - excelling in zero-shot classification with a 6.56% average improvement (as high as 29.8% and 17.5% in dermatology and ophthalmology, respectively), and stronger image-text retrieval, all while using 10x less compute. To foster reproducibility and collaboration, we release our codebase and dataset for the broader research community.

BIOMEDICA: Un Archivo Abierto de Imágenes y Subtítulos Biomédicos, Conjunto de Datos y Modelos de Visión-Lenguaje Derivados de la Literatura Científica

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Resumen

Support