ChatPaper.aiChatPaper

Begrijpen Vision-Language modellen echt Multi-vision sensoren?

Are Vision-Language Models Truly Understanding Multi-vision Sensor?

December 30, 2024
Auteurs: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro
cs.AI

Samenvatting

Grote Vision-Language Modellen (VLM's) hebben zich ontwikkeld door visuele invoer te aligneren met tekst, wat de prestaties bij computervisietaken aanzienlijk verbetert. Bovendien is voor effectief gebruik van VLM's in praktische toepassingen een begrip van diverse multi-vision sensorgegevens, zoals thermische, diepte- en röntgeninformatie, essentieel. We merken echter op dat huidige VLM's multi-vision sensorafbeeldingen verwerken zonder diepgaand begrip van sensorinformatie, waarbij de unieke fysieke eigenschappen van elke sensor worden genegeerd. Deze beperking belemmert hun vermogen om complexe vragen die multi-vision sensorredenering vereisen, te interpreteren en erop te reageren. Om dit aan te pakken, stellen we een nieuw benchmark voor, genaamd Multi-vision Sensor Perceptie en Redenering (MS-PR), waarbij VLM's worden beoordeeld op hun vermogen tot sensor-specifieke redenering. Bovendien introduceren we Diverse Negatieve Kenmerken (DNA) optimalisatie om VLM's in staat te stellen diepgaande redenering uit te voeren over multi-vision sensor taken, wat helpt om de kerninformatiekloof tussen afbeeldingen en sensorgegevens te overbruggen. Uitgebreide experimentele resultaten bevestigen dat de voorgestelde DNA-methode aanzienlijke verbeteringen kan aanbrengen in de multi-vision sensorredenering voor VLM's.
English
Large-scale Vision-Language Models (VLMs) have advanced by aligning vision inputs with text, significantly improving performance in computer vision tasks. Moreover, for VLMs to be effectively utilized in real-world applications, an understanding of diverse multi-vision sensor data, such as thermal, depth, and X-ray information, is essential. However, we find that current VLMs process multi-vision sensor images without deep understanding of sensor information, disregarding each sensor's unique physical properties. This limitation restricts their capacity to interpret and respond to complex questions requiring multi-vision sensor reasoning. To address this, we propose a novel Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning on multi-vision sensor tasks, helping to bridge the core information gap between images and sensor data. Extensive experimental results validate that the proposed DNA method can significantly improve the multi-vision sensor reasoning for VLMs.

Summary

AI-Generated Summary

PDF202January 3, 2025