SPARK: Benchmark de Percepção e Raciocínio de Sensores Multivisão para Modelos de Visão e Linguagem em Escala Grande
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models
August 22, 2024
Autores: Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro
cs.AI
Resumo
Os Modelos de Visão-Linguagem em Grande Escala (LVLMs) avançaram significativamente com entradas de visão alinhadas ao texto. Eles fizeram progressos notáveis em tarefas de visão computacional ao alinhar a modalidade de texto com as entradas de visão. Também há esforços para incorporar sensores de visão múltipla além do RGB, incluindo imagens térmicas, de profundidade e raios-X médicos. No entanto, observamos que os LVLMs atuais visualizam imagens capturadas por sensores de visão múltipla como se estivessem no mesmo domínio RGB, sem considerar as características físicas dos sensores de visão múltipla. Eles falham em transmitir corretamente as informações fundamentais dos sensores de visão múltipla do conjunto de dados e o conhecimento contextual correspondente. Consequentemente, a alinhamento entre as informações do ambiente físico real e o texto não é alcançado corretamente, tornando difícil responder a perguntas complexas relacionadas aos sensores que consideram o ambiente físico. Neste artigo, temos como objetivo estabelecer um benchmark de Percepção e Raciocínio de Sensores de Visão Múltipla chamado SPARK, que pode reduzir a lacuna fundamental de informações dos sensores de visão múltipla entre imagens e sensores de visão múltipla. Geramos automaticamente 6.248 amostras de teste de visão-linguagem para investigar a percepção sensorial de visão múltipla e o raciocínio sensorial de visão múltipla sobre a proficiência em conhecimento de sensores físicos em diferentes formatos, abrangendo diferentes tipos de perguntas relacionadas aos sensores. Utilizamos essas amostras para avaliar dez dos principais LVLMs. Os resultados mostraram que a maioria dos modelos apresentou deficiências no raciocínio sensorial de visão múltipla em diferentes graus. Os códigos e dados estão disponíveis em https://github.com/top-yun/SPARK
English
Large-scale Vision-Language Models (LVLMs) have significantly advanced with
text-aligned vision inputs. They have made remarkable progress in computer
vision tasks by aligning text modality with vision inputs. There are also
endeavors to incorporate multi-vision sensors beyond RGB, including thermal,
depth, and medical X-ray images. However, we observe that current LVLMs view
images taken from multi-vision sensors as if they were in the same RGB domain
without considering the physical characteristics of multi-vision sensors. They
fail to convey the fundamental multi-vision sensor information from the dataset
and the corresponding contextual knowledge properly. Consequently, alignment
between the information from the actual physical environment and the text is
not achieved correctly, making it difficult to answer complex sensor-related
questions that consider the physical environment. In this paper, we aim to
establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK
that can reduce the fundamental multi-vision sensor information gap between
images and multi-vision sensors. We generated 6,248 vision-language test
samples automatically to investigate multi-vision sensory perception and
multi-vision sensory reasoning on physical sensor knowledge proficiency across
different formats, covering different types of sensor-related questions. We
utilized these samples to assess ten leading LVLMs. The results showed that
most models displayed deficiencies in multi-vision sensory reasoning to varying
extents. Codes and data are available at https://github.com/top-yun/SPARKSummary
AI-Generated Summary