ChatPaper.aiChatPaper

VisIT-Bench: Ein Benchmark für die Befolgung von visuell-sprachlichen Anweisungen inspiriert durch reale Anwendungen

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use

August 12, 2023
Autoren: Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schimdt
cs.AI

Zusammenfassung

Wir stellen VisIT-Bench (Visual InsTruction Benchmark) vor, einen Benchmark zur Bewertung von instruktionsfolgenden Vision-Sprach-Modellen für den Einsatz in der realen Welt. Unser Ausgangspunkt ist die Zusammenstellung von 70 „Instruktionsfamilien“, die wir als Aufgaben betrachten, die instruktionsoptimierte Vision-Sprach-Modelle bewältigen können sollten. Über Bewertungen wie VQAv2 und COCO hinaus reichen die Aufgaben von grundlegender Erkennung bis hin zu Spielen und kreativer Generierung. Nach der Zusammenstellung umfasst unser Datensatz 592 Testanfragen, jede mit einer von Menschen verfassten, instruktionsbedingten Beschreibung. Diese Beschreibungen heben instruktionsspezifische Faktoren hervor; zum Beispiel beschreibt die instruktionsbedingte Beschreibung bei einer Anfrage zur Barrierefreiheit eines Geschäfts für Rollstuhlfahrer Rampen oder potenzielle Hindernisse. Diese Beschreibungen ermöglichen 1) die Sammlung von von Menschen verifizierten Referenzausgaben für jede Instanz und 2) die automatische Bewertung von Kandidaten für multimodale Generierungen mithilfe eines textbasierten LLM, die mit der menschlichen Beurteilung übereinstimmt. Wir quantifizieren Qualitätslücken zwischen Modellen und Referenzen sowohl durch menschliche als auch automatische Bewertungen; zum Beispiel schneidet das leistungsstärkste instruktionsfolgende Modell in nur 27 % der Vergleiche besser ab als die GPT-4-Referenz. VisIT-Bench ist dynamisch gestaltet, um die Teilnahme zu erleichtern: Praktiker reichen einfach die Antwort ihres Modells auf der Projektwebsite ein; Daten, Code und die Bestenliste sind unter visit-bench.github.io verfügbar.
English
We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.
PDF61December 15, 2024