ChatPaper.aiChatPaper

VLM^2-Bench: Un análisis detallado del desempeño de los VLMs en la vinculación implícita de coincidencias visuales explícitas

VLM^2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues

February 17, 2025
Autores: Jianshu Zhang, Dongyu Yao, Renjie Pi, Paul Pu Liang, Yi R., Fung
cs.AI

Resumen

La capacidad de vincular visualmente indicios coincidentes es crucial en la vida cotidiana, como identificar a la misma persona en múltiples fotos basándose en sus indicios, incluso sin saber quién es. A pesar del amplio conocimiento que poseen los modelos de visión y lenguaje (VLMs), sigue siendo en gran medida desconocido si son capaces de realizar esta tarea fundamental. Para abordar esto, presentamos VLM^2-Bench, un punto de referencia diseñado para evaluar si los VLMs pueden Vincular Visualmente Indicios Coincidentes, con 9 subtareas y más de 3,000 casos de prueba. Una evaluación exhaustiva en ocho VLMs de código abierto y GPT-4o, junto con un análisis adicional de varios métodos de indicación en el lado del lenguaje y la visión, conduce a un total de ocho hallazgos clave. Identificamos desafíos críticos en la capacidad de los modelos para vincular indicios visuales, destacando una brecha significativa de rendimiento donde incluso GPT-4o se queda un 34.80% por detrás de los humanos. Basándonos en estas ideas, abogamos por (i) mejorar las capacidades visuales centrales para aumentar la adaptabilidad y reducir la dependencia del conocimiento previo, (ii) establecer principios más claros para integrar el razonamiento basado en el lenguaje en tareas centradas en la visión para evitar sesgos innecesarios, y (iii) cambiar los paradigmas de entrenamiento de visión-texto hacia fomentar la capacidad de los modelos para estructurar e inferir relaciones entre indicios visuales de manera independiente.
English
Visually linking matching cues is a crucial ability in daily life, such as identifying the same person in multiple photos based on their cues, even without knowing who they are. Despite the extensive knowledge that vision-language models (VLMs) possess, it remains largely unexplored whether they are capable of performing this fundamental task. To address this, we introduce VLM^2-Bench, a benchmark designed to assess whether VLMs can Visually Link Matching cues, with 9 subtasks and over 3,000 test cases. Comprehensive evaluation across eight open-source VLMs and GPT-4o, along with further analysis of various language-side and vision-side prompting methods, leads to a total of eight key findings. We identify critical challenges in models' ability to link visual cues, highlighting a significant performance gap where even GPT-4o lags 34.80% behind humans. Based on these insights, we advocate for (i) enhancing core visual capabilities to improve adaptability and reduce reliance on prior knowledge, (ii) establishing clearer principles for integrating language-based reasoning in vision-centric tasks to prevent unnecessary biases, and (iii) shifting vision-text training paradigms toward fostering models' ability to independently structure and infer relationships among visual cues.

Summary

AI-Generated Summary

PDF302February 24, 2025