SPARK : Banc d'essai de perception et de raisonnement multi-capteurs pour les modèles vision-langage à grande échelle
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models
August 22, 2024
Auteurs: Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro
cs.AI
Résumé
Les Modèles Vision-Language à Grande Échelle (LVLM) ont considérablement progressé avec l'introduction d'entrées de vision alignées sur le texte. Ils ont réalisé des avancées remarquables dans les tâches de vision par ordinateur en alignant la modalité textuelle avec les entrées de vision. Il existe également des efforts pour incorporer des capteurs multi-vision au-delà du RGB, comprenant des images thermiques, de profondeur et des radiographies médicales. Cependant, nous observons que les LVLM actuels considèrent les images provenant de capteurs multi-vision comme si elles étaient dans le même domaine RGB sans tenir compte des caractéristiques physiques des capteurs multi-vision. Ils échouent à transmettre correctement les informations fondamentales des capteurs multi-vision provenant de l'ensemble de données et les connaissances contextuelles correspondantes. Par conséquent, l'alignement entre les informations de l'environnement physique réel et le texte n'est pas correctement réalisé, rendant difficile de répondre à des questions complexes liées aux capteurs qui prennent en compte l'environnement physique. Dans cet article, nous visons à établir un banc d'essai de Perception et Raisonnement des Capteurs multi-vision appelé SPARK qui peut réduire l'écart d'informations fondamentales des capteurs multi-vision entre les images et les capteurs multi-vision. Nous avons généré automatiquement 6 248 échantillons de test vision-langage pour étudier la perception sensorielle multi-vision et le raisonnement sensoriel multi-vision sur la compétence en connaissances des capteurs physiques à travers différents formats, couvrant différents types de questions liées aux capteurs. Nous avons utilisé ces échantillons pour évaluer dix principaux LVLM. Les résultats ont montré que la plupart des modèles présentaient des lacunes dans le raisonnement sensoriel multi-vision dans diverses mesures. Les codes et les données sont disponibles sur https://github.com/top-yun/SPARK
English
Large-scale Vision-Language Models (LVLMs) have significantly advanced with
text-aligned vision inputs. They have made remarkable progress in computer
vision tasks by aligning text modality with vision inputs. There are also
endeavors to incorporate multi-vision sensors beyond RGB, including thermal,
depth, and medical X-ray images. However, we observe that current LVLMs view
images taken from multi-vision sensors as if they were in the same RGB domain
without considering the physical characteristics of multi-vision sensors. They
fail to convey the fundamental multi-vision sensor information from the dataset
and the corresponding contextual knowledge properly. Consequently, alignment
between the information from the actual physical environment and the text is
not achieved correctly, making it difficult to answer complex sensor-related
questions that consider the physical environment. In this paper, we aim to
establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK
that can reduce the fundamental multi-vision sensor information gap between
images and multi-vision sensors. We generated 6,248 vision-language test
samples automatically to investigate multi-vision sensory perception and
multi-vision sensory reasoning on physical sensor knowledge proficiency across
different formats, covering different types of sensor-related questions. We
utilized these samples to assess ten leading LVLMs. The results showed that
most models displayed deficiencies in multi-vision sensory reasoning to varying
extents. Codes and data are available at https://github.com/top-yun/SPARKSummary
AI-Generated Summary