VLM4Bio: Un conjunto de datos de referencia para evaluar modelos preentrenados de visión-lenguaje para el descubrimiento de rasgos en imágenes biológicas.
VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images
August 28, 2024
Autores: M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
cs.AI
Resumen
Las imágenes se están convirtiendo cada vez más en la moneda para documentar la biodiversidad en el planeta, brindando nuevas oportunidades para acelerar descubrimientos científicos en el campo de la biología de organismos, especialmente con la llegada de grandes modelos de visión-lenguaje (VLMs). Nos preguntamos si los VLMs pre-entrenados pueden ayudar a los científicos a responder una variedad de preguntas biológicamente relevantes sin necesidad de ajustes adicionales. En este documento, evaluamos la efectividad de 12 modelos de vanguardia (SOTA) VLMs en el campo de la biología de organismos utilizando un conjunto de datos novedoso, VLM4Bio, que consta de 469K pares de preguntas y respuestas que involucran 30K imágenes de tres grupos de organismos: peces, aves y mariposas, cubriendo cinco tareas biológicamente relevantes. También exploramos los efectos de aplicar técnicas de interrogación y pruebas para la alucinación de razonamiento en el rendimiento de los VLMs, arrojando nueva luz sobre las capacidades de los actuales VLMs SOTA para responder preguntas biológicamente relevantes utilizando imágenes. El código y los conjuntos de datos para ejecutar todos los análisis informados en este documento se pueden encontrar en https://github.com/sammarfy/VLM4Bio.
English
Images are increasingly becoming the currency for documenting biodiversity on
the planet, providing novel opportunities for accelerating scientific
discoveries in the field of organismal biology, especially with the advent of
large vision-language models (VLMs). We ask if pre-trained VLMs can aid
scientists in answering a range of biologically relevant questions without any
additional fine-tuning. In this paper, we evaluate the effectiveness of 12
state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel
dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images
from three groups of organisms: fishes, birds, and butterflies, covering five
biologically relevant tasks. We also explore the effects of applying prompting
techniques and tests for reasoning hallucination on the performance of VLMs,
shedding new light on the capabilities of current SOTA VLMs in answering
biologically relevant questions using images. The code and datasets for running
all the analyses reported in this paper can be found at
https://github.com/sammarfy/VLM4Bio.Summary
AI-Generated Summary