ChatPaper.aiChatPaper

VisIT-Bench : Un benchmark pour le suivi d'instructions vision-langage Inspiré par des cas d'utilisation réels

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use

August 12, 2023
Auteurs: Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schimdt
cs.AI

Résumé

Nous présentons VisIT-Bench (Visual InsTruction Benchmark), un benchmark pour l'évaluation des modèles vision-langage ajustés aux instructions dans des contextes d'utilisation réels. Notre point de départ est la curation de 70 'familles d'instructions' que nous estimons que les modèles vision-langage ajustés aux instructions devraient être capables de traiter. Allant au-delà des évaluations comme VQAv2 et COCO, les tâches varient de la reconnaissance de base au jeu et à la génération créative. Après curation, notre ensemble de données comprend 592 requêtes de test, chacune accompagnée d'une légende conditionnée par une instruction rédigée par un humain. Ces descriptions mettent en lumière des facteurs spécifiques à l'instruction ; par exemple, pour une instruction demandant l'accessibilité d'une devanture de magasin pour les utilisateurs de fauteuils roulants, la légende conditionnée décrit les rampes ou les obstacles potentiels. Ces descriptions permettent 1) de collecter des sorties de référence vérifiées par des humains pour chaque instance ; et 2) d'évaluer automatiquement les générations multimodales candidates à l'aide d'un modèle de langage uniquement textuel, en alignement avec le jugement humain. Nous quantifions les écarts de qualité entre les modèles et les références à l'aide d'évaluations humaines et automatiques ; par exemple, le modèle le plus performant en termes de suivi d'instructions ne surpasse la référence GPT-4 que dans 27 % des comparaisons. VisIT-Bench est dynamique et facile à utiliser : les praticiens soumettent simplement la réponse de leur modèle sur le site web du projet ; les données, le code et le classement sont disponibles sur visit-bench.github.io.
English
We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.
PDF61December 15, 2024