ChatPaper.aiChatPaper

VLM4Bio: Een benchmarkdataset om vooraf getrainde visie-taalmodellen te evalueren voor het ontdekken van eigenschappen uit biologische afbeeldingen

VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images

August 28, 2024
Auteurs: M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
cs.AI

Samenvatting

Afbeeldingen worden steeds meer het belangrijkste middel om de biodiversiteit op de planeet vast te leggen, wat nieuwe mogelijkheden biedt om wetenschappelijke ontdekkingen in het veld van de organismale biologie te versnellen, vooral met de opkomst van grote vision-language modellen (VLMs). We onderzoeken of vooraf getrainde VLMs wetenschappers kunnen helpen bij het beantwoorden van een reeks biologisch relevante vragen zonder aanvullende fine-tuning. In dit artikel evalueren we de effectiviteit van 12 state-of-the-art (SOTA) VLMs op het gebied van organismale biologie met behulp van een nieuwe dataset, VLM4Bio, die bestaat uit 469K vraag-antwoordparen met 30K afbeeldingen van drie groepen organismen: vissen, vogels en vlinders, en die vijf biologisch relevante taken omvat. We onderzoeken ook de effecten van het toepassen van promptingtechnieken en tests voor redeneerhallucinaties op de prestaties van VLMs, wat nieuw licht werpt op de mogelijkheden van huidige SOTA VLMs bij het beantwoorden van biologisch relevante vragen met behulp van afbeeldingen. De code en datasets voor het uitvoeren van alle analyses die in dit artikel worden gerapporteerd, zijn te vinden op https://github.com/sammarfy/VLM4Bio.
English
Images are increasingly becoming the currency for documenting biodiversity on the planet, providing novel opportunities for accelerating scientific discoveries in the field of organismal biology, especially with the advent of large vision-language models (VLMs). We ask if pre-trained VLMs can aid scientists in answering a range of biologically relevant questions without any additional fine-tuning. In this paper, we evaluate the effectiveness of 12 state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images from three groups of organisms: fishes, birds, and butterflies, covering five biologically relevant tasks. We also explore the effects of applying prompting techniques and tests for reasoning hallucination on the performance of VLMs, shedding new light on the capabilities of current SOTA VLMs in answering biologically relevant questions using images. The code and datasets for running all the analyses reported in this paper can be found at https://github.com/sammarfy/VLM4Bio.

Summary

AI-Generated Summary

PDF81November 16, 2024