ChatPaper.aiChatPaper

SPARK: Benchmark für die Wahrnehmung und Schlussfolgerung von Multi-Vision-Sensoren für große Vision-Sprache-Modelle

SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models

August 22, 2024
Autoren: Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro
cs.AI

Zusammenfassung

Groß angelegte Vision-Sprach-Modelle (LVLMs) haben sich erheblich weiterentwickelt, indem sie textausgerichtete visuelle Eingaben verwendet haben. Sie haben bemerkenswerte Fortschritte bei Computer-Vision-Aufgaben erzielt, indem sie die Textmodalität mit visuellen Eingaben abgestimmt haben. Es gibt auch Bestrebungen, Multi-Vision-Sensoren jenseits von RGB einzubeziehen, einschließlich thermischer, Tiefen- und medizinischer Röntgenbilder. Allerdings stellen wir fest, dass aktuelle LVLMs Bilder von Multi-Vision-Sensoren betrachten, als ob sie sich im selben RGB-Bereich befänden, ohne die physikalischen Eigenschaften von Multi-Vision-Sensoren zu berücksichtigen. Sie versäumen es, die grundlegenden Informationen der Multi-Vision-Sensoren aus dem Datensatz und das entsprechende Kontextwissen angemessen zu vermitteln. Folglich wird keine korrekte Ausrichtung zwischen den Informationen aus der tatsächlichen physischen Umgebung und dem Text erreicht, was es schwierig macht, komplexe sensorbezogene Fragen zu beantworten, die die physische Umgebung berücksichtigen. In diesem Artikel zielen wir darauf ab, einen Multi-Vision-Sensor-Wahrnehmungs- und -Begründungs-Benchmark namens SPARK zu etablieren, der die grundlegende Informationslücke zwischen Bildern und Multi-Vision-Sensoren reduzieren kann. Wir haben automatisch 6.248 Vision-Sprach-Testproben generiert, um die Wahrnehmung und Begründung von Multi-Vision-Sensoren hinsichtlich des Wissens über physische Sensoren in verschiedenen Formaten zu untersuchen, die verschiedene Arten von sensorbezogenen Fragen abdecken. Wir haben diese Proben genutzt, um zehn führende LVLMs zu bewerten. Die Ergebnisse zeigten, dass die meisten Modelle in unterschiedlichem Maße Defizite bei der Begründung von Multi-Vision-Sensoren aufwiesen. Codes und Daten sind verfügbar unter https://github.com/top-yun/SPARK.
English
Large-scale Vision-Language Models (LVLMs) have significantly advanced with text-aligned vision inputs. They have made remarkable progress in computer vision tasks by aligning text modality with vision inputs. There are also endeavors to incorporate multi-vision sensors beyond RGB, including thermal, depth, and medical X-ray images. However, we observe that current LVLMs view images taken from multi-vision sensors as if they were in the same RGB domain without considering the physical characteristics of multi-vision sensors. They fail to convey the fundamental multi-vision sensor information from the dataset and the corresponding contextual knowledge properly. Consequently, alignment between the information from the actual physical environment and the text is not achieved correctly, making it difficult to answer complex sensor-related questions that consider the physical environment. In this paper, we aim to establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK that can reduce the fundamental multi-vision sensor information gap between images and multi-vision sensors. We generated 6,248 vision-language test samples automatically to investigate multi-vision sensory perception and multi-vision sensory reasoning on physical sensor knowledge proficiency across different formats, covering different types of sensor-related questions. We utilized these samples to assess ten leading LVLMs. The results showed that most models displayed deficiencies in multi-vision sensory reasoning to varying extents. Codes and data are available at https://github.com/top-yun/SPARK
PDF143November 16, 2024