VisIT-Bench: Um Benchmark para Seguimento de Instruções Visuais e Linguísticas Inspirado em Usos do Mundo Real

Resumo

Apresentamos o VisIT-Bench (Visual InsTruction Benchmark), um benchmark para avaliação de modelos de linguagem-visual ajustados por instruções, destinados a uso no mundo real. Nosso ponto de partida é a curadoria de 70 'famílias de instruções' que imaginamos que modelos de linguagem-visual ajustados por instruções deveriam ser capazes de abordar. Indo além de avaliações como VQAv2 e COCO, as tarefas variam desde reconhecimento básico até jogos e geração criativa. Após a curadoria, nosso conjunto de dados compreende 592 consultas de teste, cada uma com uma legenda condicionada por instrução, escrita por humanos. Essas descrições destacam fatores específicos da instrução; por exemplo, para uma instrução que pergunta sobre a acessibilidade de uma loja para usuários de cadeiras de rodas, a legenda condicionada por instrução descreve rampas/possíveis obstáculos. Essas descrições permitem 1) coletar saídas de referência verificadas por humanos para cada instância; e 2) avaliação automática de gerações multimodais candidatas usando um LLM apenas de texto, alinhado com o julgamento humano. Quantificamos as lacunas de qualidade entre modelos e referências usando avaliações humanas e automáticas; por exemplo, o modelo de melhor desempenho em seguir instruções vence a referência GPT-4 em apenas 27% das comparações. O VisIT-Bench é dinâmico para participação, os profissionais simplesmente enviam a resposta de seu modelo no site do projeto; Dados, código e a tabela de classificação estão disponíveis em visit-bench.github.io.

English

We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.

VisIT-Bench: Um Benchmark para Seguimento de Instruções Visuais e Linguísticas Inspirado em Usos do Mundo Real

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use

Resumo

Support