Les modèles Vision-Language comprennent-ils vraiment les capteurs multi-vision ?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?
December 30, 2024
Auteurs: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro
cs.AI
Résumé
Les Modèles Vision-Language à Grande Échelle (VLM), en alignant les entrées visuelles avec du texte, ont considérablement amélioré les performances dans les tâches de vision par ordinateur. De plus, pour que les VLM soient efficacement utilisés dans des applications du monde réel, une compréhension de diverses données de capteurs multi-vision, telles que thermiques, de profondeur et de rayons X, est essentielle. Cependant, nous constatons que les VLM actuels traitent les images de capteurs multi-vision sans une compréhension approfondie des informations des capteurs, en ignorant les propriétés physiques uniques de chaque capteur. Cette limitation restreint leur capacité à interpréter et à répondre à des questions complexes nécessitant un raisonnement multi-vision sensoriel. Pour remédier à cela, nous proposons un nouveau banc d'essai de Perception et Raisonnement de Capteurs Multi-vision (MS-PR), évaluant les VLM sur leur capacité de raisonnement spécifique aux capteurs. De plus, nous introduisons l'optimisation des Attributs Négatifs Divers (DNA) pour permettre aux VLM d'effectuer un raisonnement approfondi sur les tâches de capteurs multi-vision, aidant à combler le fossé d'information essentiel entre les images et les données des capteurs. Des résultats expérimentaux approfondis valident que la méthode DNA proposée peut améliorer significativement le raisonnement multi-vision sensoriel pour les VLM.
English
Large-scale Vision-Language Models (VLMs) have advanced by aligning vision
inputs with text, significantly improving performance in computer vision tasks.
Moreover, for VLMs to be effectively utilized in real-world applications, an
understanding of diverse multi-vision sensor data, such as thermal, depth, and
X-ray information, is essential. However, we find that current VLMs process
multi-vision sensor images without deep understanding of sensor information,
disregarding each sensor's unique physical properties. This limitation
restricts their capacity to interpret and respond to complex questions
requiring multi-vision sensor reasoning. To address this, we propose a novel
Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs
on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse
Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning
on multi-vision sensor tasks, helping to bridge the core information gap
between images and sensor data. Extensive experimental results validate that
the proposed DNA method can significantly improve the multi-vision sensor
reasoning for VLMs.Summary
AI-Generated Summary