VLM4Bio: Ein Benchmark-Datensatz zur Bewertung von vortrainierten Vision-Language-Modellen für Merkmalsentdeckung in biologischen Bildern.
VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images
August 28, 2024
Autoren: M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
cs.AI
Zusammenfassung
Bilder werden zunehmend zur Dokumentation der Biodiversität auf dem Planeten zu einer Währung, die neue Möglichkeiten für die Beschleunigung wissenschaftlicher Entdeckungen im Bereich der Organismenbiologie bietet, insbesondere mit dem Aufkommen großer Bild-Sprach-Modelle (VLMs). Wir untersuchen, ob vorab trainierte VLMs Wissenschaftler dabei unterstützen können, eine Vielzahl biologisch relevanter Fragen ohne zusätzliches Feintuning zu beantworten. In diesem Artikel bewerten wir die Wirksamkeit von 12 State-of-the-Art (SOTA) VLMs im Bereich der Organismenbiologie anhand eines neuartigen Datensatzes, VLM4Bio, der aus 469.000 Frage-Antwort-Paaren besteht, die 30.000 Bilder von drei Gruppen von Organismen - Fischen, Vögeln und Schmetterlingen - umfassen und fünf biologisch relevante Aufgaben abdecken. Wir untersuchen auch die Auswirkungen der Anwendung von Aufforderungstechniken und Tests auf die Vernunftshalleuzination auf die Leistung von VLMs und werfen ein neues Licht auf die Fähigkeiten der aktuellen SOTA VLMs, biologisch relevante Fragen unter Verwendung von Bildern zu beantworten. Der Code und die Datensätze zur Durchführung aller in diesem Artikel beschriebenen Analysen finden Sie unter https://github.com/sammarfy/VLM4Bio.
English
Images are increasingly becoming the currency for documenting biodiversity on
the planet, providing novel opportunities for accelerating scientific
discoveries in the field of organismal biology, especially with the advent of
large vision-language models (VLMs). We ask if pre-trained VLMs can aid
scientists in answering a range of biologically relevant questions without any
additional fine-tuning. In this paper, we evaluate the effectiveness of 12
state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel
dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images
from three groups of organisms: fishes, birds, and butterflies, covering five
biologically relevant tasks. We also explore the effects of applying prompting
techniques and tests for reasoning hallucination on the performance of VLMs,
shedding new light on the capabilities of current SOTA VLMs in answering
biologically relevant questions using images. The code and datasets for running
all the analyses reported in this paper can be found at
https://github.com/sammarfy/VLM4Bio.Summary
AI-Generated Summary