VLM4Bio:生物画像からの特性発見のための事前学習ビジョン言語モデルを評価するためのベンチマークデータセット
VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images
August 28, 2024
著者: M. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
cs.AI
要旨
画像は、生物多様性を文書化するための通貨として、特に大規模なビジョン言語モデル(VLMs)の登場により、生物学の分野で科学的な発見を加速させる新しい機会を提供しています。本研究では、事前学習されたVLMsが、追加の微調整なしで科学者がさまざまな生物学的に関連する質問に回答するのに役立つかどうかを検討します。本論文では、3つの生物群(魚類、鳥類、蝶々)からなる30,000枚の画像を含む新しいデータセットVLM4Bioを用いて、生物学の分野での12の最先端(SOTA)VLMsの効果を評価し、5つの生物学的に関連するタスクをカバーする469,000の質問-回答ペアを使用します。また、プロンプト技術の適用効果や推論幻覚のテストによるVLMsのパフォーマンスについても探求し、画像を使用して生物学的に関連する質問に回答するための現在のSOTA VLMsの能力に新たな光を当てます。本論文で報告されているすべての分析を実行するためのコードとデータセットは、以下のリンクから入手できます:https://github.com/sammarfy/VLM4Bio。
English
Images are increasingly becoming the currency for documenting biodiversity on
the planet, providing novel opportunities for accelerating scientific
discoveries in the field of organismal biology, especially with the advent of
large vision-language models (VLMs). We ask if pre-trained VLMs can aid
scientists in answering a range of biologically relevant questions without any
additional fine-tuning. In this paper, we evaluate the effectiveness of 12
state-of-the-art (SOTA) VLMs in the field of organismal biology using a novel
dataset, VLM4Bio, consisting of 469K question-answer pairs involving 30K images
from three groups of organisms: fishes, birds, and butterflies, covering five
biologically relevant tasks. We also explore the effects of applying prompting
techniques and tests for reasoning hallucination on the performance of VLMs,
shedding new light on the capabilities of current SOTA VLMs in answering
biologically relevant questions using images. The code and datasets for running
all the analyses reported in this paper can be found at
https://github.com/sammarfy/VLM4Bio.Summary
AI-Generated Summary