VLM^2-Bench: Uma Análise Aprofundada de Quão Bem os VLMs Conectam Implicitamente Pistas Visuais Explícitas de Correspondência
VLM^2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues
February 17, 2025
Autores: Jianshu Zhang, Dongyu Yao, Renjie Pi, Paul Pu Liang, Yi R., Fung
cs.AI
Resumo
Ligar visualmente pistas correspondentes é uma habilidade crucial no dia a dia, como identificar a mesma pessoa em várias fotos com base em suas pistas, mesmo sem saber quem ela é. Apesar do extenso conhecimento que os modelos visão-linguagem (VLMs) possuem, ainda é amplamente desconhecido se eles são capazes de realizar essa tarefa fundamental. Para abordar isso, introduzimos o VLM^2-Bench, um benchmark projetado para avaliar se os VLMs podem Ligar Visualmente Pistas Correspondentes, com 9 subtarefas e mais de 3.000 casos de teste. Uma avaliação abrangente em oito VLMs de código aberto e o GPT-4o, juntamente com uma análise adicional de vários métodos de prompt no lado da linguagem e no lado da visão, resulta em um total de oito descobertas-chave. Identificamos desafios críticos na capacidade dos modelos de vincular pistas visuais, destacando uma lacuna significativa de desempenho em que até mesmo o GPT-4o fica 34,80% atrás dos humanos. Com base nessas percepções, defendemos (i) aprimorar as capacidades visuais centrais para melhorar a adaptabilidade e reduzir a dependência de conhecimento prévio, (ii) estabelecer princípios mais claros para integrar o raciocínio baseado em linguagem em tarefas centradas na visão para evitar vieses desnecessários, e (iii) mudar os paradigmas de treinamento visão-texto para promover a capacidade dos modelos de estruturar e inferir relações entre pistas visuais de forma independente.
English
Visually linking matching cues is a crucial ability in daily life, such as
identifying the same person in multiple photos based on their cues, even
without knowing who they are. Despite the extensive knowledge that
vision-language models (VLMs) possess, it remains largely unexplored whether
they are capable of performing this fundamental task. To address this, we
introduce VLM^2-Bench, a benchmark designed to assess whether VLMs can
Visually Link Matching cues, with 9 subtasks and over 3,000 test cases.
Comprehensive evaluation across eight open-source VLMs and GPT-4o, along with
further analysis of various language-side and vision-side prompting methods,
leads to a total of eight key findings. We identify critical challenges in
models' ability to link visual cues, highlighting a significant performance gap
where even GPT-4o lags 34.80% behind humans. Based on these insights, we
advocate for (i) enhancing core visual capabilities to improve adaptability and
reduce reliance on prior knowledge, (ii) establishing clearer principles for
integrating language-based reasoning in vision-centric tasks to prevent
unnecessary biases, and (iii) shifting vision-text training paradigms toward
fostering models' ability to independently structure and infer relationships
among visual cues.Summary
AI-Generated Summary