ColorBench: Os Modelos de Linguagem Visual Podem Ver e Compreender o Mundo Colorido? Um Benchmark Abrangente para Percepção de Cores, Raciocínio e Robustez
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
April 10, 2025
Autores: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou
cs.AI
Resumo
A cor desempenha um papel importante na percepção humana e geralmente fornece pistas críticas no raciocínio visual. No entanto, não está claro se e como os modelos visão-linguagem (VLMs) podem perceber, compreender e utilizar a cor como os humanos. Este artigo apresenta o ColorBench, um benchmark inovador meticulosamente elaborado para avaliar as capacidades dos VLMs na compreensão da cor, incluindo percepção, raciocínio e robustez. Ao criar um conjunto diversificado de cenários de teste, com base em aplicações reais, o ColorBench avalia como esses modelos percebem as cores, inferem significados a partir de pistas baseadas em cores e mantêm um desempenho consistente sob diversas transformações de cores. Por meio de uma avaliação extensiva de 32 VLMs com diferentes modelos de linguagem e codificadores visuais, nosso artigo revela algumas descobertas inéditas: (i) A lei de escalonamento (modelos maiores são melhores) ainda se mantém no ColorBench, embora o modelo de linguagem desempenhe um papel mais importante do que o codificador visual. (ii) No entanto, as diferenças de desempenho entre os modelos são relativamente pequenas, indicando que a compreensão da cor tem sido amplamente negligenciada pelos VLMs existentes. (iii) O raciocínio CoT melhora a precisão e a robustez na compreensão da cor, embora sejam tarefas centradas na visão. (iv) As pistas de cor são de fato utilizadas pelos VLMs no ColorBench, mas também podem enganar os modelos em algumas tarefas. Essas descobertas destacam as limitações críticas dos VLMs atuais e ressaltam a necessidade de aprimorar a compreensão da cor. Nosso ColorBench pode servir como uma ferramenta fundamental para avançar o estudo da compreensão da cor em nível humano em IA multimodal.
English
Color plays an important role in human perception and usually provides
critical clues in visual reasoning. However, it is unclear whether and how
vision-language models (VLMs) can perceive, understand, and leverage color as
humans. This paper introduces ColorBench, an innovative benchmark meticulously
crafted to assess the capabilities of VLMs in color understanding, including
color perception, reasoning, and robustness. By curating a suite of diverse
test scenarios, with grounding in real applications, ColorBench evaluates how
these models perceive colors, infer meanings from color-based cues, and
maintain consistent performance under varying color transformations. Through an
extensive evaluation of 32 VLMs with varying language models and vision
encoders, our paper reveals some undiscovered findings: (i) The scaling law
(larger models are better) still holds on ColorBench, while the language model
plays a more important role than the vision encoder. (ii) However, the
performance gaps across models are relatively small, indicating that color
understanding has been largely neglected by existing VLMs. (iii) CoT reasoning
improves color understanding accuracies and robustness, though they are
vision-centric tasks. (iv) Color clues are indeed leveraged by VLMs on
ColorBench but they can also mislead models in some tasks. These findings
highlight the critical limitations of current VLMs and underscore the need to
enhance color comprehension. Our ColorBenchcan serve as a foundational tool for
advancing the study of human-level color understanding of multimodal AI.Summary
AI-Generated Summary