ChatPaper.aiChatPaper

VLM4Bio: Um Conjunto de Dados de Referência para Avaliar Modelos de Visão-Linguagem Pré-treinados para Descoberta de Características em Imagens Biológicas

VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images

August 28, 2024
Autores: M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
cs.AI

Resumo

As imagens estão se tornando cada vez mais a moeda para documentar a biodiversidade no planeta, proporcionando novas oportunidades para acelerar descobertas científicas no campo da biologia de organismos, especialmente com o surgimento de grandes modelos de visão-linguagem (VLMs). Questionamos se os VLMs pré-treinados podem auxiliar os cientistas a responder a uma variedade de questões biologicamente relevantes sem qualquer ajuste fino adicional. Neste artigo, avaliamos a eficácia de 12 modelos de última geração (SOTA) no campo da biologia de organismos usando um conjunto de dados inovador, VLM4Bio, composto por 469 mil pares pergunta-resposta envolvendo 30 mil imagens de três grupos de organismos: peixes, aves e borboletas, abrangendo cinco tarefas biologicamente relevantes. Também exploramos os efeitos da aplicação de técnicas de sugestão e testes para alucinação de raciocínio no desempenho dos VLMs, lançando nova luz sobre as capacidades dos atuais VLMs de última geração em responder a questões biologicamente relevantes usando imagens. O código e os conjuntos de dados para executar todas as análises relatadas neste artigo podem ser encontrados em https://github.com/sammarfy/VLM4Bio.
English
Images are increasingly becoming the currency for documenting biodiversity on the planet, providing novel opportunities for accelerating scientific discoveries in the field of organismal biology, especially with the advent of large vision-language models (VLMs). We ask if pre-trained VLMs can aid scientists in answering a range of biologically relevant questions without any additional fine-tuning. In this paper, we evaluate the effectiveness of 12 state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images from three groups of organisms: fishes, birds, and butterflies, covering five biologically relevant tasks. We also explore the effects of applying prompting techniques and tests for reasoning hallucination on the performance of VLMs, shedding new light on the capabilities of current SOTA VLMs in answering biologically relevant questions using images. The code and datasets for running all the analyses reported in this paper can be found at https://github.com/sammarfy/VLM4Bio.

Summary

AI-Generated Summary

PDF81November 16, 2024