NaturalBench: Avaliando Modelos de Visão e Linguagem em Amostras Naturais Adversárias
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
October 18, 2024
Autores: Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan
cs.AI
Resumo
Os modelos visão-linguagem (VLMs) têm avançado significativamente nos benchmarks recentes de questionamento-resposta visual (VQA) que avaliam raciocínio visio-linguístico complexo. No entanto, esses modelos são verdadeiramente eficazes? Neste trabalho, demonstramos que os VLMs ainda enfrentam dificuldades com imagens naturais e perguntas que humanos podem responder facilmente, o que chamamos de amostras adversárias naturais. Também descobrimos ser surpreendentemente fácil gerar essas amostras VQA a partir de corpora de texto e imagem usando modelos prontos como CLIP e ChatGPT. Propomos uma abordagem semi-automatizada para coletar um novo benchmark, NaturalBench, para avaliar de forma confiável os VLMs com 10.000 amostras VQA verificadas por humanos. Crucialmente, adotamos um design centrado na visão, emparelhando cada pergunta com duas imagens que fornecem respostas diferentes, impedindo soluções cegas de responder sem usar as imagens. Isso torna o NaturalBench mais desafiador do que benchmarks anteriores que podem ser resolvidos com conhecimentos comuns. Avaliamos 53 VLMs de ponta no NaturalBench, mostrando que modelos como LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL e até GPT-4o ficam 50%-70% atrás do desempenho humano (acima de 90%). Analisamos por que o NaturalBench é difícil sob duas perspectivas: (1) Composicionalidade: Resolver o NaturalBench requer diversas habilidades visio-linguísticas, incluindo compreensão de associações de atributos, relacionamentos entre objetos e raciocínio avançado como lógica e contagem. Para isso, ao contrário de trabalhos anteriores que usam uma única tag por amostra, atribuímos de 1 a 8 tags de habilidades a cada amostra do NaturalBench para avaliação detalhada. (2) Viéses: O NaturalBench expõe viéses severos nos VLMs, já que os modelos frequentemente escolhem a mesma resposta independentemente da imagem. Por fim, aplicamos nosso método de curadoria de benchmark a diversas fontes de dados, incluindo legendas longas (mais de 100 palavras) e idiomas não-ingleses como chinês e hindi, destacando seu potencial para avaliações dinâmicas de VLMs.
English
Vision-language models (VLMs) have made significant progress in recent
visual-question-answering (VQA) benchmarks that evaluate complex
visio-linguistic reasoning. However, are these models truly effective? In this
work, we show that VLMs still struggle with natural images and questions that
humans can easily answer, which we term natural adversarial samples. We also
find it surprisingly easy to generate these VQA samples from natural image-text
corpora using off-the-shelf models like CLIP and ChatGPT. We propose a
semi-automated approach to collect a new benchmark, NaturalBench, for reliably
evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a
vision-centric design by pairing each question with two images that
yield different answers, preventing blind solutions from answering without
using the images. This makes NaturalBench more challenging than previous
benchmarks that can be solved with commonsense priors. We evaluate 53
state-of-the-art VLMs on NaturalBench, showing that models like
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o
lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is
hard from two angles: (1) Compositionality: Solving NaturalBench requires
diverse visio-linguistic skills, including understanding attribute bindings,
object relationships, and advanced reasoning like logic and counting. To this
end, unlike prior work that uses a single tag per sample, we tag each
NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2)
Biases: NaturalBench exposes severe biases in VLMs, as models often choose the
same answer regardless of the image. Lastly, we apply our benchmark curation
method to diverse data sources, including long captions (over 100 words) and
non-English languages like Chinese and Hindi, highlighting its potential for
dynamic evaluations of VLMs.Summary
AI-Generated Summary