VLM^2-Bench: Un análisis detallado del desempeño de los VLMs en la vinculación implícita de coincidencias visuales explícitas
VLM^2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues
February 17, 2025
Autores: Jianshu Zhang, Dongyu Yao, Renjie Pi, Paul Pu Liang, Yi R., Fung
cs.AI
Resumen
La capacidad de vincular visualmente indicios coincidentes es crucial en la vida cotidiana, como identificar a la misma persona en múltiples fotos basándose en sus indicios, incluso sin saber quién es. A pesar del amplio conocimiento que poseen los modelos de visión y lenguaje (VLMs), sigue siendo en gran medida desconocido si son capaces de realizar esta tarea fundamental. Para abordar esto, presentamos VLM^2-Bench, un punto de referencia diseñado para evaluar si los VLMs pueden Vincular Visualmente Indicios Coincidentes, con 9 subtareas y más de 3,000 casos de prueba. Una evaluación exhaustiva en ocho VLMs de código abierto y GPT-4o, junto con un análisis adicional de varios métodos de indicación en el lado del lenguaje y la visión, conduce a un total de ocho hallazgos clave. Identificamos desafíos críticos en la capacidad de los modelos para vincular indicios visuales, destacando una brecha significativa de rendimiento donde incluso GPT-4o se queda un 34.80% por detrás de los humanos. Basándonos en estas ideas, abogamos por (i) mejorar las capacidades visuales centrales para aumentar la adaptabilidad y reducir la dependencia del conocimiento previo, (ii) establecer principios más claros para integrar el razonamiento basado en el lenguaje en tareas centradas en la visión para evitar sesgos innecesarios, y (iii) cambiar los paradigmas de entrenamiento de visión-texto hacia fomentar la capacidad de los modelos para estructurar e inferir relaciones entre indicios visuales de manera independiente.
English
Visually linking matching cues is a crucial ability in daily life, such as
identifying the same person in multiple photos based on their cues, even
without knowing who they are. Despite the extensive knowledge that
vision-language models (VLMs) possess, it remains largely unexplored whether
they are capable of performing this fundamental task. To address this, we
introduce VLM^2-Bench, a benchmark designed to assess whether VLMs can
Visually Link Matching cues, with 9 subtasks and over 3,000 test cases.
Comprehensive evaluation across eight open-source VLMs and GPT-4o, along with
further analysis of various language-side and vision-side prompting methods,
leads to a total of eight key findings. We identify critical challenges in
models' ability to link visual cues, highlighting a significant performance gap
where even GPT-4o lags 34.80% behind humans. Based on these insights, we
advocate for (i) enhancing core visual capabilities to improve adaptability and
reduce reliance on prior knowledge, (ii) establishing clearer principles for
integrating language-based reasoning in vision-centric tasks to prevent
unnecessary biases, and (iii) shifting vision-text training paradigms toward
fostering models' ability to independently structure and infer relationships
among visual cues.Summary
AI-Generated Summary