SPARK: Benchmark voor perceptie en redenering met meerdere visuele sensoren voor grootschalige visueel-taalkundige modellen
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models
August 22, 2024
Auteurs: Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro
cs.AI
Samenvatting
Grootschalige Vision-Taalmodellen (LVLMs) hebben aanzienlijke vooruitgang geboekt met tekst-uitgelijnde visuele invoer. Ze hebben opmerkelijke vooruitgang geboekt in computervisietaken door de tekstmodaliteit af te stemmen op visuele invoer. Er zijn ook inspanningen geleverd om multi-visie sensoren naast RGB te integreren, waaronder thermische, diepte- en medische röntgenbeelden. We observeren echter dat huidige LVLMs beelden die zijn genomen met multi-visie sensoren behandelen alsof ze zich in hetzelfde RGB-domein bevinden, zonder rekening te houden met de fysieke kenmerken van multi-visie sensoren. Ze slagen er niet in om de fundamentele informatie van multi-visie sensoren uit de dataset en de bijbehorende contextuele kennis correct over te brengen. Hierdoor wordt de afstemming tussen de informatie uit de werkelijke fysieke omgeving en de tekst niet correct bereikt, wat het beantwoorden van complexe sensorgerelateerde vragen die rekening houden met de fysieke omgeving bemoeilijkt. In dit artikel streven we ernaar om een benchmark voor multi-visie Sensor Perceptie en Redenering te creëren, genaamd SPARK, die de fundamentele informatiekloof tussen beelden en multi-visie sensoren kan verkleinen. We hebben automatisch 6.248 visie-taal testmonsters gegenereerd om multi-visie sensorische perceptie en multi-visie sensorisch redeneren te onderzoeken op basis van fysieke sensorkennisvaardigheid in verschillende formaten, waarbij verschillende soorten sensorgerelateerde vragen worden behandeld. We hebben deze monsters gebruikt om tien toonaangevende LVLMs te evalueren. De resultaten toonden aan dat de meeste modellen in verschillende mate tekortkomingen vertoonden in multi-visie sensorisch redeneren. Codes en data zijn beschikbaar op https://github.com/top-yun/SPARK.
English
Large-scale Vision-Language Models (LVLMs) have significantly advanced with
text-aligned vision inputs. They have made remarkable progress in computer
vision tasks by aligning text modality with vision inputs. There are also
endeavors to incorporate multi-vision sensors beyond RGB, including thermal,
depth, and medical X-ray images. However, we observe that current LVLMs view
images taken from multi-vision sensors as if they were in the same RGB domain
without considering the physical characteristics of multi-vision sensors. They
fail to convey the fundamental multi-vision sensor information from the dataset
and the corresponding contextual knowledge properly. Consequently, alignment
between the information from the actual physical environment and the text is
not achieved correctly, making it difficult to answer complex sensor-related
questions that consider the physical environment. In this paper, we aim to
establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK
that can reduce the fundamental multi-vision sensor information gap between
images and multi-vision sensors. We generated 6,248 vision-language test
samples automatically to investigate multi-vision sensory perception and
multi-vision sensory reasoning on physical sensor knowledge proficiency across
different formats, covering different types of sensor-related questions. We
utilized these samples to assess ten leading LVLMs. The results showed that
most models displayed deficiencies in multi-vision sensory reasoning to varying
extents. Codes and data are available at https://github.com/top-yun/SPARKSummary
AI-Generated Summary