ChatPaper.aiChatPaper

VLM4Bio: Набор данных для оценки предобученных моделей видео-языкового восприятия для обнаружения признаков на биологических изображениях

VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images

August 28, 2024
Авторы: M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
cs.AI

Аннотация

Изображения все более становятся основным способом документирования биоразнообразия на планете, предоставляя новые возможности для ускорения научных открытий в области организменной биологии, особенно с появлением крупных моделей видео-языкового восприятия (VLM). Мы исследуем, могут ли предварительно обученные модели VLM помочь ученым в ответе на ряд биологически значимых вопросов без дополнительной настройки. В данной статье мы оцениваем эффективность 12 передовых моделей VLM в области организменной биологии с использованием нового набора данных, VLM4Bio, состоящего из 469 тыс. пар вопрос-ответ, включающего 30 тыс. изображений из трех групп организмов: рыб, птиц и бабочек, охватывающего пять биологически значимых задач. Мы также исследуем влияние применения техник подсказок и тестов на обнаружение рассуждений на производительность моделей VLM, проливая новый свет на возможности текущих передовых моделей VLM в ответе на биологически значимые вопросы с использованием изображений. Код и наборы данных для выполнения всех анализов, описанных в этой статье, можно найти по адресу https://github.com/sammarfy/VLM4Bio.
English
Images are increasingly becoming the currency for documenting biodiversity on the planet, providing novel opportunities for accelerating scientific discoveries in the field of organismal biology, especially with the advent of large vision-language models (VLMs). We ask if pre-trained VLMs can aid scientists in answering a range of biologically relevant questions without any additional fine-tuning. In this paper, we evaluate the effectiveness of 12 state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images from three groups of organisms: fishes, birds, and butterflies, covering five biologically relevant tasks. We also explore the effects of applying prompting techniques and tests for reasoning hallucination on the performance of VLMs, shedding new light on the capabilities of current SOTA VLMs in answering biologically relevant questions using images. The code and datasets for running all the analyses reported in this paper can be found at https://github.com/sammarfy/VLM4Bio.

Summary

AI-Generated Summary

PDF81November 16, 2024