ChatPaper.aiChatPaper

ColorBench : Les modèles de vision et de langage peuvent-ils voir et comprendre le monde coloré ? Un benchmark complet pour la perception des couleurs, le raisonnement et la robustesse

ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness

April 10, 2025
Auteurs: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou
cs.AI

Résumé

La couleur joue un rôle important dans la perception humaine et fournit généralement des indices critiques pour le raisonnement visuel. Cependant, il n'est pas clair si et comment les modèles vision-langage (VLMs) peuvent percevoir, comprendre et exploiter la couleur comme les humains. Cet article présente ColorBench, un benchmark innovant soigneusement conçu pour évaluer les capacités des VLMs dans la compréhension de la couleur, incluant la perception des couleurs, le raisonnement et la robustesse. En élaborant une série de scénarios de test variés, ancrés dans des applications réelles, ColorBench évalue comment ces modèles perçoivent les couleurs, infèrent des significations à partir d'indices basés sur la couleur et maintiennent des performances constantes sous diverses transformations de couleur. À travers une évaluation approfondie de 32 VLMs avec différents modèles de langage et encodeurs visuels, notre article révèle des découvertes inédites : (i) La loi d'échelle (les modèles plus grands sont meilleurs) reste valable sur ColorBench, bien que le modèle de langage joue un rôle plus important que l'encodeur visuel. (ii) Cependant, les écarts de performance entre les modèles sont relativement faibles, indiquant que la compréhension de la couleur a été largement négligée par les VLMs existants. (iii) Le raisonnement CoT améliore la précision et la robustesse de la compréhension des couleurs, bien que ces tâches soient centrées sur la vision. (iv) Les indices de couleur sont effectivement exploités par les VLMs sur ColorBench, mais ils peuvent également induire en erreur les modèles dans certaines tâches. Ces résultats mettent en lumière les limitations critiques des VLMs actuels et soulignent la nécessité d'améliorer la compréhension des couleurs. Notre ColorBench peut servir d'outil fondamental pour faire progresser l'étude de la compréhension des couleurs au niveau humain dans l'IA multimodale.
English
Color plays an important role in human perception and usually provides critical clues in visual reasoning. However, it is unclear whether and how vision-language models (VLMs) can perceive, understand, and leverage color as humans. This paper introduces ColorBench, an innovative benchmark meticulously crafted to assess the capabilities of VLMs in color understanding, including color perception, reasoning, and robustness. By curating a suite of diverse test scenarios, with grounding in real applications, ColorBench evaluates how these models perceive colors, infer meanings from color-based cues, and maintain consistent performance under varying color transformations. Through an extensive evaluation of 32 VLMs with varying language models and vision encoders, our paper reveals some undiscovered findings: (i) The scaling law (larger models are better) still holds on ColorBench, while the language model plays a more important role than the vision encoder. (ii) However, the performance gaps across models are relatively small, indicating that color understanding has been largely neglected by existing VLMs. (iii) CoT reasoning improves color understanding accuracies and robustness, though they are vision-centric tasks. (iv) Color clues are indeed leveraged by VLMs on ColorBench but they can also mislead models in some tasks. These findings highlight the critical limitations of current VLMs and underscore the need to enhance color comprehension. Our ColorBenchcan serve as a foundational tool for advancing the study of human-level color understanding of multimodal AI.

Summary

AI-Generated Summary

PDF454April 17, 2025