VLM4Bio: Een benchmarkdataset om vooraf getrainde visie-taalmodellen te evalueren voor het ontdekken van eigenschappen uit biologische afbeeldingen
VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images
August 28, 2024
Auteurs: M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
cs.AI
Samenvatting
Afbeeldingen worden steeds meer het belangrijkste middel om de biodiversiteit op de planeet vast te leggen, wat nieuwe mogelijkheden biedt om wetenschappelijke ontdekkingen in het veld van de organismale biologie te versnellen, vooral met de opkomst van grote vision-language modellen (VLMs). We onderzoeken of vooraf getrainde VLMs wetenschappers kunnen helpen bij het beantwoorden van een reeks biologisch relevante vragen zonder aanvullende fine-tuning. In dit artikel evalueren we de effectiviteit van 12 state-of-the-art (SOTA) VLMs op het gebied van organismale biologie met behulp van een nieuwe dataset, VLM4Bio, die bestaat uit 469K vraag-antwoordparen met 30K afbeeldingen van drie groepen organismen: vissen, vogels en vlinders, en die vijf biologisch relevante taken omvat. We onderzoeken ook de effecten van het toepassen van promptingtechnieken en tests voor redeneerhallucinaties op de prestaties van VLMs, wat nieuw licht werpt op de mogelijkheden van huidige SOTA VLMs bij het beantwoorden van biologisch relevante vragen met behulp van afbeeldingen. De code en datasets voor het uitvoeren van alle analyses die in dit artikel worden gerapporteerd, zijn te vinden op https://github.com/sammarfy/VLM4Bio.
English
Images are increasingly becoming the currency for documenting biodiversity on
the planet, providing novel opportunities for accelerating scientific
discoveries in the field of organismal biology, especially with the advent of
large vision-language models (VLMs). We ask if pre-trained VLMs can aid
scientists in answering a range of biologically relevant questions without any
additional fine-tuning. In this paper, we evaluate the effectiveness of 12
state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel
dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images
from three groups of organisms: fishes, birds, and butterflies, covering five
biologically relevant tasks. We also explore the effects of applying prompting
techniques and tests for reasoning hallucination on the performance of VLMs,
shedding new light on the capabilities of current SOTA VLMs in answering
biologically relevant questions using images. The code and datasets for running
all the analyses reported in this paper can be found at
https://github.com/sammarfy/VLM4Bio.Summary
AI-Generated Summary