ChatPaper.aiChatPaper

¿Los modelos de Visión-Lenguaje realmente están comprendiendo el sensor de múltiples visiones?

Are Vision-Language Models Truly Understanding Multi-vision Sensor?

December 30, 2024
Autores: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro
cs.AI

Resumen

Los Modelos de Visión-Lenguaje a Gran Escala (VLMs) han avanzado al alinear las entradas visuales con texto, mejorando significativamente el rendimiento en tareas de visión por computadora. Además, para que los VLMs sean utilizados de manera efectiva en aplicaciones del mundo real, es esencial comprender diversos datos de sensores de múltiples visiones, como información térmica, de profundidad y de rayos X. Sin embargo, observamos que los VLMs actuales procesan imágenes de sensores de múltiples visiones sin comprender profundamente la información del sensor, ignorando las propiedades físicas únicas de cada sensor. Esta limitación restringe su capacidad para interpretar y responder a preguntas complejas que requieren razonamiento de sensores de múltiples visiones. Para abordar esto, proponemos un nuevo banco de pruebas de Percepción y Razonamiento de Sensores de Múltiples Visiones (MS-PR), evaluando a los VLMs en su capacidad para el razonamiento específico del sensor. Además, introducimos la optimización de Atributos Negativos Diversos (DNA) para permitir que los VLMs realicen un razonamiento profundo en tareas de sensores de múltiples visiones, ayudando a cerrar la brecha de información fundamental entre imágenes y datos de sensores. Resultados experimentales extensos validan que el método DNA propuesto puede mejorar significativamente el razonamiento de sensores de múltiples visiones para los VLMs.
English
Large-scale Vision-Language Models (VLMs) have advanced by aligning vision inputs with text, significantly improving performance in computer vision tasks. Moreover, for VLMs to be effectively utilized in real-world applications, an understanding of diverse multi-vision sensor data, such as thermal, depth, and X-ray information, is essential. However, we find that current VLMs process multi-vision sensor images without deep understanding of sensor information, disregarding each sensor's unique physical properties. This limitation restricts their capacity to interpret and respond to complex questions requiring multi-vision sensor reasoning. To address this, we propose a novel Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning on multi-vision sensor tasks, helping to bridge the core information gap between images and sensor data. Extensive experimental results validate that the proposed DNA method can significantly improve the multi-vision sensor reasoning for VLMs.

Summary

AI-Generated Summary

PDF202January 3, 2025