ChatPaper.aiChatPaper

NaturalBench: Evaluando Modelos Visión-Lenguaje en Muestras Adversarias Naturales

NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

October 18, 2024
Autores: Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan
cs.AI

Resumen

Los modelos visión-lenguaje (VLMs) han avanzado significativamente en los últimos benchmarks de pregunta-respuesta visual (VQA) que evalúan un razonamiento visio-lingüístico complejo. Sin embargo, ¿son realmente efectivos estos modelos? En este trabajo, demostramos que los VLMs todavía tienen dificultades con imágenes naturales y preguntas que los humanos pueden responder fácilmente, a las que denominamos muestras adversarias naturales. También descubrimos que es sorprendentemente fácil generar estas muestras VQA a partir de corpora de imágenes y texto naturales utilizando modelos listos para usar como CLIP y ChatGPT. Proponemos un enfoque semiautomatizado para recopilar un nuevo benchmark, NaturalBench, para evaluar de manera confiable los VLMs con 10,000 muestras VQA verificadas por humanos. Es crucial destacar que adoptamos un diseño centrado en la visión al emparejar cada pregunta con dos imágenes que arrojan respuestas diferentes, evitando que las soluciones ciegas respondan sin utilizar las imágenes. Esto hace que NaturalBench sea más desafiante que benchmarks anteriores que pueden resolverse con conocimientos previos comunes. Evaluamos 53 VLMs de última generación en NaturalBench, mostrando que modelos como LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL e incluso GPT-4o se rezagan un 50%-70% detrás del rendimiento humano (más del 90%). Analizamos por qué NaturalBench es difícil desde dos perspectivas: (1) Composicionalidad: Resolver NaturalBench requiere habilidades visio-lingüísticas diversas, incluyendo la comprensión de asociaciones de atributos, relaciones entre objetos y razonamientos avanzados como lógica y conteo. Con este fin, a diferencia de trabajos anteriores que utilizan una etiqueta única por muestra, etiquetamos cada muestra de NaturalBench con 1 a 8 etiquetas de habilidades para una evaluación detallada. (2) Sesgos: NaturalBench expone sesgos severos en los VLMs, ya que los modelos a menudo eligen la misma respuesta independientemente de la imagen. Por último, aplicamos nuestro método de curación de benchmarks a diversas fuentes de datos, incluyendo subtítulos largos (más de 100 palabras) y idiomas no ingleses como chino e hindi, resaltando su potencial para evaluaciones dinámicas de VLMs.
English
Vision-language models (VLMs) have made significant progress in recent visual-question-answering (VQA) benchmarks that evaluate complex visio-linguistic reasoning. However, are these models truly effective? In this work, we show that VLMs still struggle with natural images and questions that humans can easily answer, which we term natural adversarial samples. We also find it surprisingly easy to generate these VQA samples from natural image-text corpora using off-the-shelf models like CLIP and ChatGPT. We propose a semi-automated approach to collect a new benchmark, NaturalBench, for reliably evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a vision-centric design by pairing each question with two images that yield different answers, preventing blind solutions from answering without using the images. This makes NaturalBench more challenging than previous benchmarks that can be solved with commonsense priors. We evaluate 53 state-of-the-art VLMs on NaturalBench, showing that models like LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is hard from two angles: (1) Compositionality: Solving NaturalBench requires diverse visio-linguistic skills, including understanding attribute bindings, object relationships, and advanced reasoning like logic and counting. To this end, unlike prior work that uses a single tag per sample, we tag each NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2) Biases: NaturalBench exposes severe biases in VLMs, as models often choose the same answer regardless of the image. Lastly, we apply our benchmark curation method to diverse data sources, including long captions (over 100 words) and non-English languages like Chinese and Hindi, highlighting its potential for dynamic evaluations of VLMs.

Summary

AI-Generated Summary

PDF404November 16, 2024