ChatPaper.aiChatPaper

VisIT-Bench: Бенчмарк для выполнения инструкций на основе визуально-языковых моделей, вдохновленный реальными сценариями использования

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use

August 12, 2023
Авторы: Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schimdt
cs.AI

Аннотация

Мы представляем VisIT-Bench (Visual InsTruction Benchmark) — эталонный набор данных для оценки моделей обработки визуально-языковой информации, ориентированных на выполнение инструкций, в реальных условиях. Наша отправная точка — создание 70 «семейств инструкций», которые, как мы предполагаем, должны быть доступны для обработки моделями, настроенными на выполнение инструкций. Выходя за рамки таких оценок, как VQAv2 и COCO, задачи варьируются от базового распознавания до игровых сценариев и творческой генерации. После отбора наш набор данных включает 592 тестовых запроса, каждый из которых сопровождается аннотацией, созданной человеком и зависящей от инструкции. Эти описания выделяют факторы, специфичные для инструкций; например, для инструкции, касающейся доступности витрины магазина для пользователей инвалидных колясок, аннотация описывает пандусы или потенциальные препятствия. Такие описания позволяют: 1) собирать проверенные человеком эталонные ответы для каждого примера; и 2) автоматически оценивать кандидатов на мультимодальную генерацию с использованием текстовой языковой модели (LLM), что согласуется с человеческой оценкой. Мы количественно оцениваем разницу в качестве между моделями и эталонами с помощью как человеческой, так и автоматической оценки; например, лучшая модель, ориентированная на выполнение инструкций, превосходит эталон GPT-4 только в 27% случаев. VisIT-Bench является динамическим инструментом для участия: практикующие специалисты просто отправляют ответы своей модели на сайте проекта; данные, код и таблица лидеров доступны на visit-bench.github.io.
English
We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.
PDF61December 15, 2024