SPARK: Многовидовой датчик восприятия и бенчмарк рассуждений для Моделей видео-языкового восприятия большого масштаба
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models
August 22, 2024
Авторы: Youngjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro
cs.AI
Аннотация
Модели видео-языкового взаимодействия большого масштаба (LVLMs) значительно продвинулись с вводом текста, согласованного с изображениями. Они сделали заметные успехи в задачах компьютерного зрения, выстраивая соответствие между текстовым модальным и визуальным вводом. Также предпринимаются попытки интегрировать мульти-визионные датчики помимо RGB, включая тепловые, глубинные и медицинские рентгеновские изображения. Однако мы наблюдаем, что текущие LVLMs рассматривают изображения, полученные с мульти-визионных датчиков, как будто они находятся в одной и той же RGB области, не учитывая физические характеристики мульти-визионных датчиков. Они не передают фундаментальную информацию о мульти-визионных датчиках из набора данных и соответствующие контекстные знания должным образом. В результате, соответствие между информацией из реальной физической среды и текстом не достигается правильно, что затрудняет ответ на сложные вопросы, связанные с датчиками, учитывающие физическую среду. В данной статье мы стремимся создать бенчмарк восприятия и рассуждения мульти-визионных датчиков под названием SPARK, который может сократить фундаментальный разрыв информации о мульти-визионных датчиках между изображениями и мульти-визионными датчиками. Мы автоматически сгенерировали 6 248 тестовых образцов видео-языкового взаимодействия для исследования восприятия мульти-визионных датчиков и рассуждения на основе физических знаний о датчиках в различных форматах, охватывающих различные типы вопросов, связанных с датчиками. Мы использовали эти образцы для оценки десяти ведущих LVLMs. Результаты показали, что большинство моделей проявляют недостатки в рассуждениях о мульти-визионных датчиках в различной степени. Коды и данные доступны по ссылке https://github.com/top-yun/SPARK
English
Large-scale Vision-Language Models (LVLMs) have significantly advanced with
text-aligned vision inputs. They have made remarkable progress in computer
vision tasks by aligning text modality with vision inputs. There are also
endeavors to incorporate multi-vision sensors beyond RGB, including thermal,
depth, and medical X-ray images. However, we observe that current LVLMs view
images taken from multi-vision sensors as if they were in the same RGB domain
without considering the physical characteristics of multi-vision sensors. They
fail to convey the fundamental multi-vision sensor information from the dataset
and the corresponding contextual knowledge properly. Consequently, alignment
between the information from the actual physical environment and the text is
not achieved correctly, making it difficult to answer complex sensor-related
questions that consider the physical environment. In this paper, we aim to
establish a multi-vision Sensor Perception And Reasoning benchmarK called SPARK
that can reduce the fundamental multi-vision sensor information gap between
images and multi-vision sensors. We generated 6,248 vision-language test
samples automatically to investigate multi-vision sensory perception and
multi-vision sensory reasoning on physical sensor knowledge proficiency across
different formats, covering different types of sensor-related questions. We
utilized these samples to assess ten leading LVLMs. The results showed that
most models displayed deficiencies in multi-vision sensory reasoning to varying
extents. Codes and data are available at https://github.com/top-yun/SPARKSummary
AI-Generated Summary