VLM4Bio: Un insieme di dati di riferimento per valutare i modelli preaddestrati di visione-linguaggio per la scoperta di tratti dalle immagini biologiche
VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images
August 28, 2024
Autori: M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
cs.AI
Abstract
Le immagini stanno diventando sempre più importanti per documentare la biodiversità del pianeta, offrendo nuove opportunità per accelerare le scoperte scientifiche nel campo della biologia degli organismi, specialmente con l'avvento dei grandi modelli di visione-linguaggio (VLM). Ci chiediamo se i VLM pre-addestrati possano aiutare gli scienziati a rispondere a una serie di domande biologicamente rilevanti senza ulteriore sintonizzazione. In questo articolo, valutiamo l'efficacia di 12 modelli VLM all'avanguardia nel campo della biologia degli organismi utilizzando un nuovo set di dati, VLM4Bio, composto da 469.000 coppie domanda-risposta che coinvolgono 30.000 immagini di tre gruppi di organismi: pesci, uccelli e farfalle, che coprono cinque compiti biologicamente rilevanti. Esploriamo anche gli effetti dell'applicazione di tecniche di prompting e test per l'illusione di ragionamento sulle prestazioni dei VLM, gettando nuova luce sulle capacità dei attuali modelli VLM all'avanguardia nel rispondere a domande biologicamente rilevanti utilizzando immagini. Il codice e i set di dati per eseguire tutte le analisi riportate in questo articolo possono essere trovati su https://github.com/sammarfy/VLM4Bio.
English
Images are increasingly becoming the currency for documenting biodiversity on
the planet, providing novel opportunities for accelerating scientific
discoveries in the field of organismal biology, especially with the advent of
large vision-language models (VLMs). We ask if pre-trained VLMs can aid
scientists in answering a range of biologically relevant questions without any
additional fine-tuning. In this paper, we evaluate the effectiveness of 12
state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel
dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images
from three groups of organisms: fishes, birds, and butterflies, covering five
biologically relevant tasks. We also explore the effects of applying prompting
techniques and tests for reasoning hallucination on the performance of VLMs,
shedding new light on the capabilities of current SOTA VLMs in answering
biologically relevant questions using images. The code and datasets for running
all the analyses reported in this paper can be found at
https://github.com/sammarfy/VLM4Bio.