ChatPaper.aiChatPaper

VLM^2-Bench: Un'analisi approfondita su quanto bene i VLM colleghino implicitamente gli indizi visivi espliciti

VLM^2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues

February 17, 2025
Autori: Jianshu Zhang, Dongyu Yao, Renjie Pi, Paul Pu Liang, Yi R., Fung
cs.AI

Abstract

Collegare visivamente indizi corrispondenti è un'abilità cruciale nella vita quotidiana, come identificare la stessa persona in più foto basandosi sui loro indizi, anche senza sapere chi siano. Nonostante l'ampia conoscenza posseduta dai modelli visione-linguaggio (VLMs), rimane in gran parte inesplorato se siano in grado di svolgere questo compito fondamentale. Per affrontare questa questione, introduciamo VLM^2-Bench, un benchmark progettato per valutare se i VLMs possono collegare visivamente indizi corrispondenti, con 9 sottotask e oltre 3.000 casi di test. Una valutazione completa su otto VLMs open-source e GPT-4o, insieme a un'ulteriore analisi di vari metodi di prompting lato linguaggio e lato visione, porta a un totale di otto risultati chiave. Identifichiamo sfide critiche nella capacità dei modelli di collegare indizi visivi, evidenziando un significativo divario di prestazioni in cui persino GPT-4o rimane indietro del 34,80% rispetto agli esseri umani. Sulla base di queste intuizioni, sosteniamo (i) il potenziamento delle capacità visive di base per migliorare l'adattabilità e ridurre la dipendenza dalla conoscenza pregressa, (ii) l'istituzione di principi più chiari per integrare il ragionamento basato sul linguaggio in task centrati sulla visione per prevenire bias non necessari, e (iii) un cambiamento nei paradigmi di addestramento visione-testo verso il favorire la capacità dei modelli di strutturare e inferire relazioni tra indizi visivi in modo indipendente.
English
Visually linking matching cues is a crucial ability in daily life, such as identifying the same person in multiple photos based on their cues, even without knowing who they are. Despite the extensive knowledge that vision-language models (VLMs) possess, it remains largely unexplored whether they are capable of performing this fundamental task. To address this, we introduce VLM^2-Bench, a benchmark designed to assess whether VLMs can Visually Link Matching cues, with 9 subtasks and over 3,000 test cases. Comprehensive evaluation across eight open-source VLMs and GPT-4o, along with further analysis of various language-side and vision-side prompting methods, leads to a total of eight key findings. We identify critical challenges in models' ability to link visual cues, highlighting a significant performance gap where even GPT-4o lags 34.80% behind humans. Based on these insights, we advocate for (i) enhancing core visual capabilities to improve adaptability and reduce reliance on prior knowledge, (ii) establishing clearer principles for integrating language-based reasoning in vision-centric tasks to prevent unnecessary biases, and (iii) shifting vision-text training paradigms toward fostering models' ability to independently structure and infer relationships among visual cues.

Summary

AI-Generated Summary

PDF302February 24, 2025