SPARK: Banco de pruebas de percepción y razonamiento de sensores de visión múltiple para modelos de visión y lenguaje a gran escala
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models
August 22, 2024
Autores: Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro
cs.AI
Resumen
Los Modelos de Visión-Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han avanzado significativamente con entradas de visión alineadas con texto. Han logrado un progreso notable en tareas de visión por computadora al alinear la modalidad de texto con las entradas de visión. También hay esfuerzos para incorporar sensores de visión múltiple más allá del RGB, incluyendo imágenes térmicas, de profundidad y rayos X médicos. Sin embargo, observamos que los LVLMs actuales consideran las imágenes tomadas de sensores de visión múltiple como si estuvieran en el mismo dominio RGB sin tener en cuenta las características físicas de los sensores de visión múltiple. No logran transmitir correctamente la información fundamental de los sensores de visión múltiple del conjunto de datos y el conocimiento contextual correspondiente. En consecuencia, no se logra una alineación correcta entre la información del entorno físico real y el texto, lo que dificulta responder preguntas complejas relacionadas con los sensores que consideran el entorno físico. En este documento, nuestro objetivo es establecer un banco de pruebas de Percepción y Razonamiento de Sensores de Visión Múltiple llamado SPARK que pueda reducir la brecha de información fundamental de los sensores de visión múltiple entre las imágenes y los sensores de visión múltiple. Generamos automáticamente 6,248 muestras de prueba de visión-lenguaje para investigar la percepción sensorial de visión múltiple y el razonamiento sensorial de visión múltiple sobre la competencia en el conocimiento físico del sensor a través de diferentes formatos, cubriendo diferentes tipos de preguntas relacionadas con los sensores. Utilizamos estas muestras para evaluar diez LVLMs líderes. Los resultados mostraron que la mayoría de los modelos mostraron deficiencias en el razonamiento sensorial de visión múltiple en diversos grados. Los códigos y los datos están disponibles en https://github.com/top-yun/SPARK
English
Large-scale Vision-Language Models (LVLMs) have significantly advanced with
text-aligned vision inputs. They have made remarkable progress in computer
vision tasks by aligning text modality with vision inputs. There are also
endeavors to incorporate multi-vision sensors beyond RGB, including thermal,
depth, and medical X-ray images. However, we observe that current LVLMs view
images taken from multi-vision sensors as if they were in the same RGB domain
without considering the physical characteristics of multi-vision sensors. They
fail to convey the fundamental multi-vision sensor information from the dataset
and the corresponding contextual knowledge properly. Consequently, alignment
between the information from the actual physical environment and the text is
not achieved correctly, making it difficult to answer complex sensor-related
questions that consider the physical environment. In this paper, we aim to
establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK
that can reduce the fundamental multi-vision sensor information gap between
images and multi-vision sensors. We generated 6,248 vision-language test
samples automatically to investigate multi-vision sensory perception and
multi-vision sensory reasoning on physical sensor knowledge proficiency across
different formats, covering different types of sensor-related questions. We
utilized these samples to assess ten leading LVLMs. The results showed that
most models displayed deficiencies in multi-vision sensory reasoning to varying
extents. Codes and data are available at https://github.com/top-yun/SPARKSummary
AI-Generated Summary