SPARK: Banco de pruebas de percepción y razonamiento de sensores de visión múltiple para modelos de visión y lenguaje a gran escala

Resumen

Los Modelos de Visión-Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han avanzado significativamente con entradas de visión alineadas con texto. Han logrado un progreso notable en tareas de visión por computadora al alinear la modalidad de texto con las entradas de visión. También hay esfuerzos para incorporar sensores de visión múltiple más allá del RGB, incluyendo imágenes térmicas, de profundidad y rayos X médicos. Sin embargo, observamos que los LVLMs actuales consideran las imágenes tomadas de sensores de visión múltiple como si estuvieran en el mismo dominio RGB sin tener en cuenta las características físicas de los sensores de visión múltiple. No logran transmitir correctamente la información fundamental de los sensores de visión múltiple del conjunto de datos y el conocimiento contextual correspondiente. En consecuencia, no se logra una alineación correcta entre la información del entorno físico real y el texto, lo que dificulta responder preguntas complejas relacionadas con los sensores que consideran el entorno físico. En este documento, nuestro objetivo es establecer un banco de pruebas de Percepción y Razonamiento de Sensores de Visión Múltiple llamado SPARK que pueda reducir la brecha de información fundamental de los sensores de visión múltiple entre las imágenes y los sensores de visión múltiple. Generamos automáticamente 6,248 muestras de prueba de visión-lenguaje para investigar la percepción sensorial de visión múltiple y el razonamiento sensorial de visión múltiple sobre la competencia en el conocimiento físico del sensor a través de diferentes formatos, cubriendo diferentes tipos de preguntas relacionadas con los sensores. Utilizamos estas muestras para evaluar diez LVLMs líderes. Los resultados mostraron que la mayoría de los modelos mostraron deficiencias en el razonamiento sensorial de visión múltiple en diversos grados. Los códigos y los datos están disponibles en https://github.com/top-yun/SPARK

English

Large-scale Vision-Language Models (LVLMs) have significantly advanced with text-aligned vision inputs. They have made remarkable progress in computer vision tasks by aligning text modality with vision inputs. There are also endeavors to incorporate multi-vision sensors beyond RGB, including thermal, depth, and medical X-ray images. However, we observe that current LVLMs view images taken from multi-vision sensors as if they were in the same RGB domain without considering the physical characteristics of multi-vision sensors. They fail to convey the fundamental multi-vision sensor information from the dataset and the corresponding contextual knowledge properly. Consequently, alignment between the information from the actual physical environment and the text is not achieved correctly, making it difficult to answer complex sensor-related questions that consider the physical environment. In this paper, we aim to establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK that can reduce the fundamental multi-vision sensor information gap between images and multi-vision sensors. We generated 6,248 vision-language test samples automatically to investigate multi-vision sensory perception and multi-vision sensory reasoning on physical sensor knowledge proficiency across different formats, covering different types of sensor-related questions. We utilized these samples to assess ten leading LVLMs. The results showed that most models displayed deficiencies in multi-vision sensory reasoning to varying extents. Codes and data are available at https://github.com/top-yun/SPARK

SPARK: Banco de pruebas de percepción y razonamiento de sensores de visión múltiple para modelos de visión y lenguaje a gran escala

SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models

Resumen

Support