Verstehen Vision-Language-Modelle wirklich Multi-Vision-Sensoren?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?
December 30, 2024
Autoren: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro
cs.AI
Zusammenfassung
Groß angelegte Vision-Sprach-Modelle (VLMs) haben sich durch die Ausrichtung von visuellen Eingaben mit Text weiterentwickelt und die Leistung bei Computer-Vision-Aufgaben signifikant verbessert. Darüber hinaus ist es für die effektive Nutzung von VLMs in realen Anwendungen entscheidend, ein Verständnis für vielfältige Multivisionssensordaten wie thermische, Tiefen- und Röntgeninformationen zu haben. Allerdings stellen wir fest, dass aktuelle VLMs Multivisionssensorbilder ohne tiefgreifendes Verständnis der Sensordaten verarbeiten, wodurch die einzigartigen physikalischen Eigenschaften jedes Sensors vernachlässigt werden. Diese Einschränkung begrenzt ihre Fähigkeit, komplexe Fragen zu interpretieren und zu beantworten, die Multivisionssensor-Argumentation erfordern. Um dies zu lösen, schlagen wir ein neuartiges Benchmark-Modell für Multivisionssensor-Wahrnehmung und -Argumentation (MS-PR) vor, das die Fähigkeit von VLMs zur sensorenspezifischen Argumentation bewertet. Darüber hinaus führen wir die Optimierung mit Diversen Negativen Attributen (DNA) ein, um VLMs zu ermöglichen, tiefgreifende Argumentation bei Multivisionssensor-Aufgaben durchzuführen und die Kerninformationslücke zwischen Bildern und Sensordaten zu überbrücken. Umfangreiche experimentelle Ergebnisse bestätigen, dass die vorgeschlagene DNA-Methode die Multivisionssensor-Argumentation für VLMs signifikant verbessern kann.
English
Large-scale Vision-Language Models (VLMs) have advanced by aligning vision
inputs with text, significantly improving performance in computer vision tasks.
Moreover, for VLMs to be effectively utilized in real-world applications, an
understanding of diverse multi-vision sensor data, such as thermal, depth, and
X-ray information, is essential. However, we find that current VLMs process
multi-vision sensor images without deep understanding of sensor information,
disregarding each sensor's unique physical properties. This limitation
restricts their capacity to interpret and respond to complex questions
requiring multi-vision sensor reasoning. To address this, we propose a novel
Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs
on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse
Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning
on multi-vision sensor tasks, helping to bridge the core information gap
between images and sensor data. Extensive experimental results validate that
the proposed DNA method can significantly improve the multi-vision sensor
reasoning for VLMs.