ColorBench: Способны ли визуально-языковые модели видеть и понимать красочный мир? Комплексный тест для оценки восприятия цвета, логического мышления и устойчивости
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
April 10, 2025
Авторы: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou
cs.AI
Аннотация
Цвет играет важную роль в человеческом восприятии и обычно предоставляет ключевые подсказки в визуальном мышлении. Однако остается неясным, способны ли модели, объединяющие зрение и язык (VLMs), воспринимать, понимать и использовать цвет так же, как люди. В данной статье представлен ColorBench — инновационный бенчмарк, тщательно разработанный для оценки способностей VLMs в понимании цвета, включая восприятие цвета, логическое мышление и устойчивость. Путем создания набора разнообразных тестовых сценариев, основанных на реальных приложениях, ColorBench оценивает, как эти модели воспринимают цвета, делают выводы на основе цветовых подсказок и сохраняют стабильную производительность при различных цветовых преобразованиях. В результате масштабной оценки 32 VLMs с различными языковыми моделями и визуальными кодировщиками, наша работа выявила несколько ранее неизвестных фактов: (i) Закон масштабирования (более крупные модели работают лучше) по-прежнему применим к ColorBench, при этом языковая модель играет более важную роль, чем визуальный кодировщик. (ii) Однако разрыв в производительности между моделями относительно невелик, что указывает на то, что понимание цвета в значительной степени игнорируется существующими VLMs. (iii) Логическое мышление с использованием цепочки рассуждений (CoT) улучшает точность и устойчивость в понимании цвета, несмотря на то, что это задачи, ориентированные на зрение. (iv) Цветовые подсказки действительно используются VLMs в ColorBench, но они также могут вводить модели в заблуждение в некоторых задачах. Эти выводы подчеркивают ключевые ограничения современных VLMs и необходимость улучшения понимания цвета. Наш ColorBench может служить основополагающим инструментом для продвижения исследований в области понимания цвета на уровне человека в мультимодальном искусственном интеллекте.
English
Color plays an important role in human perception and usually provides
critical clues in visual reasoning. However, it is unclear whether and how
vision-language models (VLMs) can perceive, understand, and leverage color as
humans. This paper introduces ColorBench, an innovative benchmark meticulously
crafted to assess the capabilities of VLMs in color understanding, including
color perception, reasoning, and robustness. By curating a suite of diverse
test scenarios, with grounding in real applications, ColorBench evaluates how
these models perceive colors, infer meanings from color-based cues, and
maintain consistent performance under varying color transformations. Through an
extensive evaluation of 32 VLMs with varying language models and vision
encoders, our paper reveals some undiscovered findings: (i) The scaling law
(larger models are better) still holds on ColorBench, while the language model
plays a more important role than the vision encoder. (ii) However, the
performance gaps across models are relatively small, indicating that color
understanding has been largely neglected by existing VLMs. (iii) CoT reasoning
improves color understanding accuracies and robustness, though they are
vision-centric tasks. (iv) Color clues are indeed leveraged by VLMs on
ColorBench but they can also mislead models in some tasks. These findings
highlight the critical limitations of current VLMs and underscore the need to
enhance color comprehension. Our ColorBenchcan serve as a foundational tool for
advancing the study of human-level color understanding of multimodal AI.Summary
AI-Generated Summary