ColorBench: ¿Pueden los modelos de lenguaje visual ver y comprender el mundo colorido? Un punto de referencia integral para la percepción del color, el razonamiento y la robustez.
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
April 10, 2025
Autores: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou
cs.AI
Resumen
El color desempeña un papel importante en la percepción humana y suele proporcionar pistas críticas en el razonamiento visual. Sin embargo, no está claro si los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) pueden percibir, comprender y aprovechar el color como lo hacen los humanos. Este artículo presenta ColorBench, un innovador benchmark meticulosamente diseñado para evaluar las capacidades de los VLMs en la comprensión del color, incluyendo la percepción, el razonamiento y la robustez. Al curar un conjunto diverso de escenarios de prueba, con base en aplicaciones reales, ColorBench evalúa cómo estos modelos perciben los colores, infieren significados a partir de pistas basadas en el color y mantienen un rendimiento consistente bajo diversas transformaciones de color. A través de una evaluación exhaustiva de 32 VLMs con diferentes modelos de lenguaje y codificadores visuales, nuestro artículo revela algunos hallazgos no descubiertos: (i) La ley de escalado (los modelos más grandes son mejores) sigue siendo válida en ColorBench, aunque el modelo de lenguaje desempeña un papel más importante que el codificador visual. (ii) Sin embargo, las diferencias de rendimiento entre los modelos son relativamente pequeñas, lo que indica que la comprensión del color ha sido ampliamente descuidada por los VLMs existentes. (iii) El razonamiento CoT mejora la precisión y la robustez en la comprensión del color, aunque se trate de tareas centradas en la visión. (iv) Las pistas de color son efectivamente aprovechadas por los VLMs en ColorBench, pero también pueden inducir a errores en algunas tareas. Estos hallazgos resaltan las limitaciones críticas de los VLMs actuales y subrayan la necesidad de mejorar la comprensión del color. Nuestro ColorBench puede servir como una herramienta fundamental para avanzar en el estudio de la comprensión del color a nivel humano en la IA multimodal.
English
Color plays an important role in human perception and usually provides
critical clues in visual reasoning. However, it is unclear whether and how
vision-language models (VLMs) can perceive, understand, and leverage color as
humans. This paper introduces ColorBench, an innovative benchmark meticulously
crafted to assess the capabilities of VLMs in color understanding, including
color perception, reasoning, and robustness. By curating a suite of diverse
test scenarios, with grounding in real applications, ColorBench evaluates how
these models perceive colors, infer meanings from color-based cues, and
maintain consistent performance under varying color transformations. Through an
extensive evaluation of 32 VLMs with varying language models and vision
encoders, our paper reveals some undiscovered findings: (i) The scaling law
(larger models are better) still holds on ColorBench, while the language model
plays a more important role than the vision encoder. (ii) However, the
performance gaps across models are relatively small, indicating that color
understanding has been largely neglected by existing VLMs. (iii) CoT reasoning
improves color understanding accuracies and robustness, though they are
vision-centric tasks. (iv) Color clues are indeed leveraged by VLMs on
ColorBench but they can also mislead models in some tasks. These findings
highlight the critical limitations of current VLMs and underscore the need to
enhance color comprehension. Our ColorBenchcan serve as a foundational tool for
advancing the study of human-level color understanding of multimodal AI.Summary
AI-Generated Summary