ChatPaper.aiChatPaper

VisIT-Bench: Een benchmark voor visueel-taalkundige instructievolging Geïnspireerd door real-world gebruik

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use

August 12, 2023
Auteurs: Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schimdt
cs.AI

Samenvatting

We introduceren VisIT-Bench (Visual InsTruction Benchmark), een benchmark voor de evaluatie van instructievolgende visie-taalmodellen voor gebruik in de praktijk. Ons uitgangspunt is het samenstellen van 70 'instructiefamilies' waarvan we vinden dat instructiegetrainde visie-taalmodellen deze moeten kunnen aanpakken. Naast evaluaties zoals VQAv2 en COCO omvatten taken basisherkenning tot spelletjes spelen en creatieve generatie. Na het samenstellen bestaat onze dataset uit 592 testvragen, elk met een door mensen geschreven instructie-afhankelijke beschrijving. Deze beschrijvingen brengen instructiespecifieke factoren naar voren, bijvoorbeeld voor een instructie die vraagt naar de toegankelijkheid van een winkelpand voor rolstoelgebruikers, beschrijft de instructie-afhankelijke beschrijving hellingen/mogelijke obstakels. Deze beschrijvingen maken het mogelijk om 1) door mensen geverifieerde referentie-uitvoeringen voor elk geval te verzamelen; en 2) automatische evaluatie van kandidaat-multimodale generaties met behulp van een tekst-only LLM, in lijn met menselijk oordeel. We kwantificeren kwaliteitsverschillen tussen modellen en referenties met zowel menselijke als automatische evaluaties; bijvoorbeeld wint het best presterende instructievolgende model in slechts 27% van de vergelijkingen tegen de GPT-4-referentie. VisIT-Bench is dynamisch om aan deel te nemen, beoefenaars hoeven alleen maar de reactie van hun model in te dienen op de projectwebsite; Data, code en een leaderboard zijn beschikbaar op visit-bench.github.io.
English
We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.
PDF61February 8, 2026