ChatPaper.aiChatPaper

VLM4Bio : un ensemble de données de référence pour évaluer les modèles pré-entraînés Vision-Language pour la découverte de traits à partir d'images biologiques

VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images

August 28, 2024
Auteurs: M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
cs.AI

Résumé

Les images deviennent de plus en plus la monnaie courante pour documenter la biodiversité sur la planète, offrant de nouvelles opportunités pour accélérer les découvertes scientifiques dans le domaine de la biologie des organismes, notamment avec l'avènement des grands modèles vision-langage (VLM). Nous nous demandons si les VLM pré-entraînés peuvent aider les scientifiques à répondre à diverses questions biologiquement pertinentes sans aucun ajustement supplémentaire. Dans cet article, nous évaluons l'efficacité de 12 modèles VLM de pointe dans le domaine de la biologie des organismes en utilisant un ensemble de données novateur, VLM4Bio, composé de 469 000 paires question-réponse impliquant 30 000 images de trois groupes d'organismes : poissons, oiseaux et papillons, couvrant cinq tâches biologiquement pertinentes. Nous explorons également les effets de l'application de techniques de sollicitation et des tests pour la hallucination de raisonnement sur les performances des VLM, apportant un nouvel éclairage sur les capacités des actuels modèles VLM de pointe à répondre à des questions biologiquement pertinentes en utilisant des images. Le code et les ensembles de données pour exécuter toutes les analyses rapportées dans cet article sont disponibles sur https://github.com/sammarfy/VLM4Bio.
English
Images are increasingly becoming the currency for documenting biodiversity on the planet, providing novel opportunities for accelerating scientific discoveries in the field of organismal biology, especially with the advent of large vision-language models (VLMs). We ask if pre-trained VLMs can aid scientists in answering a range of biologically relevant questions without any additional fine-tuning. In this paper, we evaluate the effectiveness of 12 state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images from three groups of organisms: fishes, birds, and butterflies, covering five biologically relevant tasks. We also explore the effects of applying prompting techniques and tests for reasoning hallucination on the performance of VLMs, shedding new light on the capabilities of current SOTA VLMs in answering biologically relevant questions using images. The code and datasets for running all the analyses reported in this paper can be found at https://github.com/sammarfy/VLM4Bio.

Summary

AI-Generated Summary

PDF81November 16, 2024