SPARK:大規模ビジョン言語モデルのためのマルチビジョンセンサー知覚および推論ベンチマーク
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models
August 22, 2024
著者: Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro
cs.AI
要旨
大規模ビジョン言語モデル(LVLMs)は、テキストに整列したビジョン入力によって大幅に進化しています。ビジョン入力とテキストモダリティを整合させることで、コンピュータビジョンタスクにおいて著しい進歩を遂げています。RGBを超えたサーマル、深度、医用X線画像を含むマルチビジョンセンサを組み込む試みもあります。しかし、現在のLVLMsは、マルチビジョンセンサから取得した画像を、物理的特性を考慮せずに同じRGBドメイン内で扱っていることが観察されます。これにより、データセットから基本的なマルチビジョンセンサ情報や対応するコンテキスト知識を適切に伝えられず、実際の物理環境からの情報とテキストとの整合が正しく達成されず、物理環境を考慮した複雑なセンサ関連の質問に答えることが困難になっています。本論文では、画像とマルチビジョンセンサ間の基本的な情報ギャップを縮小できるマルチビジョンセンサ知覚および推論ベンチマークであるSPARKを確立することを目指します。異なる形式をカバーするさまざまなタイプのセンサ関連質問にわたる物理センサ知識の熟練度を調査するために、6,248のビジョン言語テストサンプルを自動生成し、マルチビジョンセンサの知覚と推論を評価するためにこれらのサンプルを使用しました。結果は、ほとんどのモデルがさまざまな程度でマルチビジョンセンサ推論に欠陥を示していることを示しました。コードとデータはhttps://github.com/top-yun/SPARKで入手可能です。
English
Large-scale Vision-Language Models (LVLMs) have significantly advanced with
text-aligned vision inputs. They have made remarkable progress in computer
vision tasks by aligning text modality with vision inputs. There are also
endeavors to incorporate multi-vision sensors beyond RGB, including thermal,
depth, and medical X-ray images. However, we observe that current LVLMs view
images taken from multi-vision sensors as if they were in the same RGB domain
without considering the physical characteristics of multi-vision sensors. They
fail to convey the fundamental multi-vision sensor information from the dataset
and the corresponding contextual knowledge properly. Consequently, alignment
between the information from the actual physical environment and the text is
not achieved correctly, making it difficult to answer complex sensor-related
questions that consider the physical environment. In this paper, we aim to
establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK
that can reduce the fundamental multi-vision sensor information gap between
images and multi-vision sensors. We generated 6,248 vision-language test
samples automatically to investigate multi-vision sensory perception and
multi-vision sensory reasoning on physical sensor knowledge proficiency across
different formats, covering different types of sensor-related questions. We
utilized these samples to assess ten leading LVLMs. The results showed that
most models displayed deficiencies in multi-vision sensory reasoning to varying
extents. Codes and data are available at https://github.com/top-yun/SPARK