ChatPaper.aiChatPaper

VisIT-Bench: Un punto de referencia para el seguimiento de instrucciones visión-lenguaje inspirado en usos del mundo real

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use

August 12, 2023
Autores: Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schimdt
cs.AI

Resumen

Presentamos VisIT-Bench (Visual InsTruction Benchmark), un punto de referencia para la evaluación de modelos de visión-lenguaje ajustados por instrucciones para su uso en el mundo real. Nuestro punto de partida es la selección de 70 'familias de instrucciones' que consideramos que los modelos de visión-lenguaje ajustados por instrucciones deberían ser capaces de abordar. Más allá de evaluaciones como VQAv2 y COCO, las tareas van desde el reconocimiento básico hasta la participación en juegos y la generación creativa. Tras la selección, nuestro conjunto de datos consta de 592 consultas de prueba, cada una con una descripción condicionada por instrucciones escrita por humanos. Estas descripciones resaltan factores específicos de las instrucciones; por ejemplo, para una instrucción que pregunta sobre la accesibilidad de un local para usuarios de sillas de ruedas, la descripción condicionada por instrucciones describe rampas o posibles obstáculos. Estas descripciones permiten: 1) recopilar salidas de referencia verificadas por humanos para cada instancia; y 2) la evaluación automática de generaciones multimodales candidatas utilizando un modelo de lenguaje (LLM) basado únicamente en texto, alineándose con el juicio humano. Cuantificamos las brechas de calidad entre los modelos y las referencias utilizando evaluaciones tanto humanas como automáticas; por ejemplo, el modelo que mejor sigue las instrucciones gana contra la referencia de GPT-4 en solo el 27% de las comparaciones. VisIT-Bench es dinámico para participar; los profesionales simplemente envían la respuesta de su modelo en el sitio web del proyecto; los datos, el código y la tabla de clasificación están disponibles en visit-bench.github.io.
English
We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.
PDF61December 15, 2024