NaturalBench: Оценка моделей видео-языкового взаимодействия на естественных адверсарных образцах
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
October 18, 2024
Авторы: Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan
cs.AI
Аннотация
Модели видео-языкового взаимодействия (VLM) значительно продвинулись в последние годы в бенчмарках визуально-вопросно-ответных (VQA), оценивающих сложные визуально-лингвистические рассуждения. Однако насколько эффективны эти модели на самом деле? В данной работе мы показываем, что VLM по-прежнему испытывают трудности с естественными изображениями и вопросами, на которые люди могут легко ответить, что мы называем естественными адверсными образцами. Мы также обнаружили, что довольно легко генерировать эти образцы VQA из естественных корпусов изображений и текста с использованием моделей, таких как CLIP и ChatGPT. Мы предлагаем полуавтоматический подход к созданию нового бенчмарка, NaturalBench, для надежной оценки VLM с 10 000 проверенными людьми образцами VQA. Критически важно, что мы принимаем визио-центричный дизайн, сопоставляя каждый вопрос с двумя изображениями, дающими разные ответы, что предотвращает слепые решения без использования изображений. Это делает NaturalBench более сложным, чем предыдущие бенчмарки, которые могут быть решены с помощью здравого смысла. Мы оцениваем 53 передовых модели VLM на NaturalBench, показывая, что модели, такие как LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL и даже GPT-4o, отстают на 50-70% от человеческой производительности (более 90%). Мы анализируем, почему NaturalBench сложен с двух точек зрения: (1) Композициональность: Решение NaturalBench требует разнообразных визуально-языковых навыков, включая понимание связей атрибутов, отношений между объектами и продвинутого рассуждения, такого как логика и подсчет. Для этого, в отличие от предыдущих работ, использующих один тег на образец, мы помечаем каждый образец NaturalBench от 1 до 8 навыков для более детальной оценки. (2) Предвзятости: NaturalBench выявляет серьезные предвзятости в VLM, поскольку модели часто выбирают один и тот же ответ независимо от изображения. Наконец, мы применяем наш метод курирования бенчмарков к разнообразным источникам данных, включая длинные подписи (более 100 слов) и неанглийские языки, такие как китайский и хинди, подчеркивая его потенциал для динамической оценки VLM.
English
Vision-language models (VLMs) have made significant progress in recent
visual-question-answering (VQA) benchmarks that evaluate complex
visio-linguistic reasoning. However, are these models truly effective? In this
work, we show that VLMs still struggle with natural images and questions that
humans can easily answer, which we term natural adversarial samples. We also
find it surprisingly easy to generate these VQA samples from natural image-text
corpora using off-the-shelf models like CLIP and ChatGPT. We propose a
semi-automated approach to collect a new benchmark, NaturalBench, for reliably
evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a
vision-centric design by pairing each question with two images that
yield different answers, preventing blind solutions from answering without
using the images. This makes NaturalBench more challenging than previous
benchmarks that can be solved with commonsense priors. We evaluate 53
state-of-the-art VLMs on NaturalBench, showing that models like
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o
lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is
hard from two angles: (1) Compositionality: Solving NaturalBench requires
diverse visio-linguistic skills, including understanding attribute bindings,
object relationships, and advanced reasoning like logic and counting. To this
end, unlike prior work that uses a single tag per sample, we tag each
NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2)
Biases: NaturalBench exposes severe biases in VLMs, as models often choose the
same answer regardless of the image. Lastly, we apply our benchmark curation
method to diverse data sources, including long captions (over 100 words) and
non-English languages like Chinese and Hindi, highlighting its potential for
dynamic evaluations of VLMs.Summary
AI-Generated Summary