ChatPaper.aiChatPaper

ColorBench: Können VLMs die farbenfrohe Welt sehen und verstehen? Ein umfassender Benchmark für Farbwahrnehmung, -schlussfolgerung und -robustheit

ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness

April 10, 2025
Autoren: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou
cs.AI

Zusammenfassung

Farbe spielt eine wichtige Rolle in der menschlichen Wahrnehmung und liefert oft entscheidende Hinweise für visuelles Denken. Es ist jedoch unklar, ob und wie Vision-Language-Modelle (VLMs) Farbe wahrnehmen, verstehen und nutzen können wie Menschen. Dieses Papier stellt ColorBench vor, einen innovativen Benchmark, der sorgfältig entwickelt wurde, um die Fähigkeiten von VLMs im Verständnis von Farbe zu bewerten, einschließlich Farbwahrnehmung, -schlussfolgerung und -robustheit. Durch die Zusammenstellung einer Vielzahl von Testszenarien, die auf realen Anwendungen basieren, bewertet ColorBench, wie diese Modelle Farben wahrnehmen, Bedeutungen aus farbbasierten Hinweisen ableiten und eine konsistente Leistung unter verschiedenen Farbtransformationen aufrechterhalten. Durch eine umfassende Auswertung von 32 VLMs mit unterschiedlichen Sprachmodellen und Vision-Encodern enthüllt unser Papier einige bisher unentdeckte Erkenntnisse: (i) Das Skalierungsgesetz (größere Modelle sind besser) gilt weiterhin auf ColorBench, wobei das Sprachmodell eine wichtigere Rolle spielt als der Vision-Encoder. (ii) Die Leistungsunterschiede zwischen den Modellen sind jedoch relativ gering, was darauf hindeutet, dass das Farbverständnis von bestehenden VLMs weitgehend vernachlässigt wurde. (iii) CoT-Schlussfolgerungen verbessern die Genauigkeit und Robustheit des Farbverständnisses, obwohl es sich um visuell zentrierte Aufgaben handelt. (iv) Farbhinweise werden von VLMs auf ColorBench tatsächlich genutzt, können die Modelle aber in einigen Aufgaben auch in die Irre führen. Diese Erkenntnisse verdeutlichen die kritischen Grenzen aktueller VLMs und unterstreichen die Notwendigkeit, das Farbverständnis zu verbessern. Unser ColorBench kann als grundlegendes Werkzeug dienen, um die Erforschung des menschenähnlichen Farbverständnisses von multimodaler KI voranzutreiben.
English
Color plays an important role in human perception and usually provides critical clues in visual reasoning. However, it is unclear whether and how vision-language models (VLMs) can perceive, understand, and leverage color as humans. This paper introduces ColorBench, an innovative benchmark meticulously crafted to assess the capabilities of VLMs in color understanding, including color perception, reasoning, and robustness. By curating a suite of diverse test scenarios, with grounding in real applications, ColorBench evaluates how these models perceive colors, infer meanings from color-based cues, and maintain consistent performance under varying color transformations. Through an extensive evaluation of 32 VLMs with varying language models and vision encoders, our paper reveals some undiscovered findings: (i) The scaling law (larger models are better) still holds on ColorBench, while the language model plays a more important role than the vision encoder. (ii) However, the performance gaps across models are relatively small, indicating that color understanding has been largely neglected by existing VLMs. (iii) CoT reasoning improves color understanding accuracies and robustness, though they are vision-centric tasks. (iv) Color clues are indeed leveraged by VLMs on ColorBench but they can also mislead models in some tasks. These findings highlight the critical limitations of current VLMs and underscore the need to enhance color comprehension. Our ColorBenchcan serve as a foundational tool for advancing the study of human-level color understanding of multimodal AI.

Summary

AI-Generated Summary

PDF454April 17, 2025