VisIT-Bench: Een benchmark voor visueel-taalkundige instructievolging Geïnspireerd door real-world gebruik
VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use
August 12, 2023
Auteurs: Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schimdt
cs.AI
Samenvatting
We introduceren VisIT-Bench (Visual InsTruction Benchmark), een benchmark voor de evaluatie van instructievolgende visie-taalmodellen voor gebruik in de praktijk. Ons uitgangspunt is het samenstellen van 70 'instructiefamilies' waarvan we vinden dat instructiegetrainde visie-taalmodellen deze moeten kunnen aanpakken. Naast evaluaties zoals VQAv2 en COCO omvatten taken basisherkenning tot spelletjes spelen en creatieve generatie. Na het samenstellen bestaat onze dataset uit 592 testvragen, elk met een door mensen geschreven instructie-afhankelijke beschrijving. Deze beschrijvingen brengen instructiespecifieke factoren naar voren, bijvoorbeeld voor een instructie die vraagt naar de toegankelijkheid van een winkelpand voor rolstoelgebruikers, beschrijft de instructie-afhankelijke beschrijving hellingen/mogelijke obstakels. Deze beschrijvingen maken het mogelijk om 1) door mensen geverifieerde referentie-uitvoeringen voor elk geval te verzamelen; en 2) automatische evaluatie van kandidaat-multimodale generaties met behulp van een tekst-only LLM, in lijn met menselijk oordeel. We kwantificeren kwaliteitsverschillen tussen modellen en referenties met zowel menselijke als automatische evaluaties; bijvoorbeeld wint het best presterende instructievolgende model in slechts 27% van de vergelijkingen tegen de GPT-4-referentie. VisIT-Bench is dynamisch om aan deel te nemen, beoefenaars hoeven alleen maar de reactie van hun model in te dienen op de projectwebsite; Data, code en een leaderboard zijn beschikbaar op visit-bench.github.io.
English
We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for
evaluation of instruction-following vision-language models for real-world use.
Our starting point is curating 70 'instruction families' that we envision
instruction tuned vision-language models should be able to address. Extending
beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to
game playing and creative generation. Following curation, our dataset comprises
592 test queries, each with a human-authored instruction-conditioned caption.
These descriptions surface instruction-specific factors, e.g., for an
instruction asking about the accessibility of a storefront for wheelchair
users, the instruction-conditioned caption describes ramps/potential obstacles.
These descriptions enable 1) collecting human-verified reference outputs for
each instance; and 2) automatic evaluation of candidate multimodal generations
using a text-only LLM, aligning with human judgment. We quantify quality gaps
between models and references using both human and automatic evaluations; e.g.,
the top-performing instruction-following model wins against the GPT-4 reference
in just 27% of the comparison. VisIT-Bench is dynamic to participate,
practitioners simply submit their model's response on the project website;
Data, code and leaderboard is available at visit-bench.github.io.