NaturalBench: Valutazione dei Modelli Visione-Linguaggio su Campioni Avversari Naturali
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
October 18, 2024
Autori: Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan
cs.AI
Abstract
I modelli visione-linguaggio (VLM) hanno fatto significativi progressi negli ultimi benchmark di domande-risposte visive (VQA) che valutano il complesso ragionamento visio-linguistico. Tuttavia, questi modelli sono veramente efficaci? In questo lavoro, mostriamo che i VLM faticano ancora con immagini naturali e domande che gli umani possono risolvere facilmente, che definiamo campioni avversari naturali. Troviamo anche sorprendentemente facile generare questi campioni VQA da corpora di immagini e testi naturali utilizzando modelli pronti all'uso come CLIP e ChatGPT. Proponiamo un approccio semi-automatico per raccogliere un nuovo benchmark, NaturalBench, per valutare in modo affidabile i VLM con 10.000 campioni VQA verificati dagli umani. In modo cruciale, adottiamo un design centrato sulla visione accoppiando ogni domanda con due immagini che forniscono risposte diverse, impedendo soluzioni cieche di rispondere senza utilizzare le immagini. Ciò rende NaturalBench più impegnativo rispetto ai benchmark precedenti che possono essere risolti con presupposti di buon senso. Valutiamo 53 VLM all'avanguardia su NaturalBench, dimostrando che modelli come LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL e persino GPT-4o sono in ritardo del 50%-70% rispetto alle prestazioni umane (oltre il 90%). Analizziamo perché NaturalBench è difficile da due prospettive: (1) Composizionalità: Risolvere NaturalBench richiede diverse abilità visio-linguistiche, inclusi la comprensione dei legami degli attributi, le relazioni tra gli oggetti e ragionamenti avanzati come la logica e il conteggio. A tal fine, a differenza dei lavori precedenti che utilizzano un singolo tag per campione, etichettiamo ogni campione NaturalBench con 1-8 tag di abilità per una valutazione dettagliata. (2) Bias: NaturalBench espone gravi bias nei VLM, poiché i modelli spesso scelgono la stessa risposta indipendentemente dall'immagine. Infine, applichiamo il nostro metodo di cura del benchmark a diverse fonti di dati, inclusi lunghi sottotitoli (oltre 100 parole) e lingue non inglesi come il cinese e l'hindi, evidenziando il suo potenziale per valutazioni dinamiche dei VLM.
English
Vision-language models (VLMs) have made significant progress in recent
visual-question-answering (VQA) benchmarks that evaluate complex
visio-linguistic reasoning. However, are these models truly effective? In this
work, we show that VLMs still struggle with natural images and questions that
humans can easily answer, which we term natural adversarial samples. We also
find it surprisingly easy to generate these VQA samples from natural image-text
corpora using off-the-shelf models like CLIP and ChatGPT. We propose a
semi-automated approach to collect a new benchmark, NaturalBench, for reliably
evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a
vision-centric design by pairing each question with two images that
yield different answers, preventing blind solutions from answering without
using the images. This makes NaturalBench more challenging than previous
benchmarks that can be solved with commonsense priors. We evaluate 53
state-of-the-art VLMs on NaturalBench, showing that models like
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o
lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is
hard from two angles: (1) Compositionality: Solving NaturalBench requires
diverse visio-linguistic skills, including understanding attribute bindings,
object relationships, and advanced reasoning like logic and counting. To this
end, unlike prior work that uses a single tag per sample, we tag each
NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2)
Biases: NaturalBench exposes severe biases in VLMs, as models often choose the
same answer regardless of the image. Lastly, we apply our benchmark curation
method to diverse data sources, including long captions (over 100 words) and
non-English languages like Chinese and Hindi, highlighting its potential for
dynamic evaluations of VLMs.Summary
AI-Generated Summary