ColorBench: 시각언어모델(VLM)은 다채로운 세계를 보고 이해할 수 있는가? 색상 인지, 추론 및 견고성을 위한 포괄적 벤치마크
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
April 10, 2025
저자: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou
cs.AI
초록
색상은 인간의 인지에 중요한 역할을 하며 일반적으로 시각적 추론에서 결정적인 단서를 제공합니다. 그러나 시각-언어 모델(VLMs)이 인간과 같이 색상을 인지하고 이해하며 활용할 수 있는지, 그리고 그 방법은 명확하지 않습니다. 본 논문은 색상 이해 능력, 즉 색상 인지, 추론 및 견고성을 평가하기 위해 세심하게 설계된 혁신적인 벤치마크인 ColorBench를 소개합니다. 실제 응용에 기반을 둔 다양한 테스트 시나리오를 구성함으로써, ColorBench는 이러한 모델들이 색상을 어떻게 인지하고, 색상 기반 단서로부터 의미를 추론하며, 다양한 색상 변환 하에서 일관된 성능을 유지하는지를 평가합니다. 다양한 언어 모델과 시각 인코더를 가진 32개의 VLM을 광범위하게 평가한 결과, 본 논문은 몇 가지 새로운 발견을 밝혀냈습니다: (i) 스케일링 법칙(더 큰 모델이 더 좋음)이 ColorBench에서도 여전히 유효하지만, 언어 모델이 시각 인코더보다 더 중요한 역할을 합니다. (ii) 그러나 모델 간 성능 차이는 상대적으로 작아, 색상 이해가 기존 VLM에서 크게 간과되었음을 나타냅니다. (iii) CoT(Chain-of-Thought) 추론은 시각 중심 작업임에도 불구하고 색상 이해 정확도와 견고성을 향상시킵니다. (iv) ColorBench에서 VLM이 실제로 색상 단서를 활용하지만, 일부 작업에서는 모델을 오도할 수도 있습니다. 이러한 발견들은 현재 VLM의 중요한 한계를 강조하며, 색상 이해 능력을 향상시킬 필요성을 부각시킵니다. 우리의 ColorBench는 다중모드 AI의 인간 수준 색상 이해 연구를 발전시키기 위한 기초 도구로 활용될 수 있습니다.
English
Color plays an important role in human perception and usually provides
critical clues in visual reasoning. However, it is unclear whether and how
vision-language models (VLMs) can perceive, understand, and leverage color as
humans. This paper introduces ColorBench, an innovative benchmark meticulously
crafted to assess the capabilities of VLMs in color understanding, including
color perception, reasoning, and robustness. By curating a suite of diverse
test scenarios, with grounding in real applications, ColorBench evaluates how
these models perceive colors, infer meanings from color-based cues, and
maintain consistent performance under varying color transformations. Through an
extensive evaluation of 32 VLMs with varying language models and vision
encoders, our paper reveals some undiscovered findings: (i) The scaling law
(larger models are better) still holds on ColorBench, while the language model
plays a more important role than the vision encoder. (ii) However, the
performance gaps across models are relatively small, indicating that color
understanding has been largely neglected by existing VLMs. (iii) CoT reasoning
improves color understanding accuracies and robustness, though they are
vision-centric tasks. (iv) Color clues are indeed leveraged by VLMs on
ColorBench but they can also mislead models in some tasks. These findings
highlight the critical limitations of current VLMs and underscore the need to
enhance color comprehension. Our ColorBenchcan serve as a foundational tool for
advancing the study of human-level color understanding of multimodal AI.