VLM4Bio: 생물 이미지로부터 특성 발견을 위해 사전 훈련된 시각-언어 모델을 평가하는 벤치마크 데이터셋
VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images
August 28, 2024
저자: M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
cs.AI
초록
이미지는 점점 더 생물 다양성을 문서화하는 데 사용되는 통화가 되고 있으며, 대규모 시각-언어 모델(VLMs)의 등장으로 생물학 분야에서 과학적 발견을 가속화하는 새로운 기회를 제공하고 있습니다. 우리는 사전 훈련된 VLMs가 추가적인 세밀 조정 없이 다양한 생물학적 관련 질문에 대답하는 데 과학자들을 지원할 수 있는지 여쭤봅니다. 본 논문에서는 새로운 데이터셋인 VLM4Bio를 사용하여 생물학 분야에서 12개의 최신 기술(SOTA) VLMs의 효과를 평가합니다. 이 데이터셋은 3만 마리의 이미지를 포함한 46.9만 개의 질문-답변 쌍으로 구성되어 있으며, 물고기, 새, 나비 세 그룹의 생물에 관한 다섯 가지 생물학적 관련 작업을 다룹니다. 또한 프롬프팅 기술의 적용 효과와 추론 환각에 대한 테스트에 대해 탐구하여, 이미지를 사용하여 현재 SOTA VLMs의 성능을 통해 생물학적 관련 질문에 대답하는 능력에 대한 새로운 통찰을 제공합니다. 본 논문에서 보고된 모든 분석을 실행하기 위한 코드 및 데이터셋은 https://github.com/sammarfy/VLM4Bio에서 찾을 수 있습니다.
English
Images are increasingly becoming the currency for documenting biodiversity on
the planet, providing novel opportunities for accelerating scientific
discoveries in the field of organismal biology, especially with the advent of
large vision-language models (VLMs). We ask if pre-trained VLMs can aid
scientists in answering a range of biologically relevant questions without any
additional fine-tuning. In this paper, we evaluate the effectiveness of 12
state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel
dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images
from three groups of organisms: fishes, birds, and butterflies, covering five
biologically relevant tasks. We also explore the effects of applying prompting
techniques and tests for reasoning hallucination on the performance of VLMs,
shedding new light on the capabilities of current SOTA VLMs in answering
biologically relevant questions using images. The code and datasets for running
all the analyses reported in this paper can be found at
https://github.com/sammarfy/VLM4Bio.Summary
AI-Generated Summary