ColorBench: Kunnen VLMs de kleurrijke wereld zien en begrijpen? Een uitgebreide benchmark voor kleurperceptie, redeneren en robuustheid
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
April 10, 2025
Auteurs: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou
cs.AI
Samenvatting
Kleur speelt een belangrijke rol in de menselijke waarneming en biedt meestal cruciale aanwijzingen bij visueel redeneren. Het is echter onduidelijk of en hoe vision-language modellen (VLMs) kleur kunnen waarnemen, begrijpen en benutten zoals mensen. Dit artikel introduceert ColorBench, een innovatieve benchmark die zorgvuldig is ontworpen om de capaciteiten van VLMs op het gebied van kleurbegrip te beoordelen, inclusief kleurwaarneming, redeneren en robuustheid. Door een reeks diverse testsituaties samen te stellen, met een basis in echte toepassingen, evalueert ColorBench hoe deze modellen kleuren waarnemen, betekenissen afleiden uit kleuraanwijzingen en consistente prestaties behouden onder verschillende kleurtransformaties. Door een uitgebreide evaluatie van 32 VLMs met verschillende taalmodellen en vision-encoders, onthult ons artikel enkele onontdekte bevindingen: (i) De schaalwet (grotere modellen zijn beter) geldt nog steeds op ColorBench, waarbij het taalmodel een belangrijkere rol speelt dan de vision-encoder. (ii) De prestatieverschillen tussen modellen zijn echter relatief klein, wat aangeeft dat kleurbegrip grotendeels is verwaarloosd door bestaande VLMs. (iii) CoT-redenering verbetert de nauwkeurigheid en robuustheid van kleurbegrip, hoewel het visiegerichte taken zijn. (iv) Kleuraanwijzingen worden inderdaad benut door VLMs op ColorBench, maar ze kunnen modellen ook misleiden in sommige taken. Deze bevindingen benadrukken de kritieke beperkingen van huidige VLMs en onderstrepen de noodzaak om kleurbegrip te verbeteren. Onze ColorBench kan dienen als een fundamenteel instrument voor het bevorderen van de studie naar menselijk niveau van kleurbegrip in multimodale AI.
English
Color plays an important role in human perception and usually provides
critical clues in visual reasoning. However, it is unclear whether and how
vision-language models (VLMs) can perceive, understand, and leverage color as
humans. This paper introduces ColorBench, an innovative benchmark meticulously
crafted to assess the capabilities of VLMs in color understanding, including
color perception, reasoning, and robustness. By curating a suite of diverse
test scenarios, with grounding in real applications, ColorBench evaluates how
these models perceive colors, infer meanings from color-based cues, and
maintain consistent performance under varying color transformations. Through an
extensive evaluation of 32 VLMs with varying language models and vision
encoders, our paper reveals some undiscovered findings: (i) The scaling law
(larger models are better) still holds on ColorBench, while the language model
plays a more important role than the vision encoder. (ii) However, the
performance gaps across models are relatively small, indicating that color
understanding has been largely neglected by existing VLMs. (iii) CoT reasoning
improves color understanding accuracies and robustness, though they are
vision-centric tasks. (iv) Color clues are indeed leveraged by VLMs on
ColorBench but they can also mislead models in some tasks. These findings
highlight the critical limitations of current VLMs and underscore the need to
enhance color comprehension. Our ColorBenchcan serve as a foundational tool for
advancing the study of human-level color understanding of multimodal AI.Summary
AI-Generated Summary