SPARK: Benchmark per la Percezione e il Ragionamento con Sensori di Visione Multipli per Modelli di Visione-Linguaggio su Grande Scala
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models
August 22, 2024
Autori: Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro
cs.AI
Abstract
I modelli Vision-Linguaggio su larga scala (LVLM) hanno compiuto progressi significativi grazie all'allineamento degli input visivi con il testo. Hanno ottenuto risultati notevoli nelle attività di visione artificiale allineando la modalità testuale con gli input visivi. Sono stati inoltre compiuti sforzi per integrare sensori visivi multipli oltre l'RGB, tra cui termici, di profondità e immagini mediche a raggi X. Tuttavia, osserviamo che gli attuali LVLM trattano le immagini acquisite da sensori visivi multipli come se appartenessero al dominio RGB, senza considerare le caratteristiche fisiche di tali sensori. Non riescono a trasmettere correttamente le informazioni fondamentali dei sensori visivi multipli dal dataset e le relative conoscenze contestuali. Di conseguenza, l'allineamento tra le informazioni provenienti dall'ambiente fisico reale e il testo non viene raggiunto in modo corretto, rendendo difficile rispondere a domande complesse relative ai sensori che considerano l'ambiente fisico. In questo articolo, miriamo a stabilire un benchmark chiamato SPARK (Sensor Perception And Reasoning benchmarK) che possa ridurre il divario informativo fondamentale tra le immagini e i sensori visivi multipli. Abbiamo generato automaticamente 6.248 campioni di test visione-linguaggio per indagare la percezione sensoriale multi-visiva e il ragionamento sensoriale multi-visivo sulla competenza delle conoscenze fisiche dei sensori in diversi formati, coprendo vari tipi di domande relative ai sensori. Abbiamo utilizzato questi campioni per valutare dieci LVLM leader. I risultati hanno mostrato che la maggior parte dei modelli presentava carenze nel ragionamento sensoriale multi-visivo in misura variabile. Codici e dati sono disponibili all'indirizzo https://github.com/top-yun/SPARK.
English
Large-scale Vision-Language Models (LVLMs) have significantly advanced with
text-aligned vision inputs. They have made remarkable progress in computer
vision tasks by aligning text modality with vision inputs. There are also
endeavors to incorporate multi-vision sensors beyond RGB, including thermal,
depth, and medical X-ray images. However, we observe that current LVLMs view
images taken from multi-vision sensors as if they were in the same RGB domain
without considering the physical characteristics of multi-vision sensors. They
fail to convey the fundamental multi-vision sensor information from the dataset
and the corresponding contextual knowledge properly. Consequently, alignment
between the information from the actual physical environment and the text is
not achieved correctly, making it difficult to answer complex sensor-related
questions that consider the physical environment. In this paper, we aim to
establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK
that can reduce the fundamental multi-vision sensor information gap between
images and multi-vision sensors. We generated 6,248 vision-language test
samples automatically to investigate multi-vision sensory perception and
multi-vision sensory reasoning on physical sensor knowledge proficiency across
different formats, covering different types of sensor-related questions. We
utilized these samples to assess ten leading LVLMs. The results showed that
most models displayed deficiencies in multi-vision sensory reasoning to varying
extents. Codes and data are available at https://github.com/top-yun/SPARK