Действительно ли модели видео-языкового восприятия понимают мульти-видео сенсор?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?
December 30, 2024
Авторы: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro
cs.AI
Аннотация
Модели видео-языкового восприятия крупного масштаба (VLM) продвигаются за счет согласования входных данных видения с текстом, что значительно улучшает производительность в задачах компьютерного зрения. Более того, для эффективного применения VLM в реальных приложениях необходимо понимание разнообразных данных от мультивизионных сенсоров, таких как тепловые, глубинные и рентгеновские данные. Однако мы обнаруживаем, что текущие VLM обрабатывают изображения от мультивизионных сенсоров без глубокого понимания информации сенсоров, игнорируя уникальные физические свойства каждого сенсора. Это ограничение снижает их способность интерпретировать и реагировать на сложные вопросы, требующие мультивизионного сенсорного рассуждения. Для решения этой проблемы мы предлагаем новый бенчмарк Мультивизионного Сенсорного Восприятия и Рассуждения (MS-PR), оценивающий VLM по их способности к сенсорному рассуждению. Более того, мы представляем оптимизацию Разнообразных Негативных Атрибутов (DNA), чтобы позволить VLM выполнять глубокое рассуждение в задачах мультивизионных сенсоров, помогая сократить основной информационный разрыв между изображениями и данными сенсоров. Обширные экспериментальные результаты подтверждают, что предложенный метод DNA может значительно улучшить сенсорное рассуждение для VLM.
English
Large-scale Vision-Language Models (VLMs) have advanced by aligning vision
inputs with text, significantly improving performance in computer vision tasks.
Moreover, for VLMs to be effectively utilized in real-world applications, an
understanding of diverse multi-vision sensor data, such as thermal, depth, and
X-ray information, is essential. However, we find that current VLMs process
multi-vision sensor images without deep understanding of sensor information,
disregarding each sensor's unique physical properties. This limitation
restricts their capacity to interpret and respond to complex questions
requiring multi-vision sensor reasoning. To address this, we propose a novel
Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs
on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse
Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning
on multi-vision sensor tasks, helping to bridge the core information gap
between images and sensor data. Extensive experimental results validate that
the proposed DNA method can significantly improve the multi-vision sensor
reasoning for VLMs.Summary
AI-Generated Summary