ChatPaper.aiChatPaper

SEED-Bench: Evaluación de Modelos de Lenguaje Multimodales con Comprensión Generativa

SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

July 30, 2023
Autores: Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
cs.AI

Resumen

Basados en potentes Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), los recientes Modelos Multimodales de Lenguaje de Gran Escala (MLLMs) han ganado prominencia como un área de investigación fundamental, demostrando una capacidad notable tanto para la comprensión como para la generación. En este trabajo, abordamos la evaluación de la comprensión generativa en MLLMs como un paso preliminar hacia una evaluación integral de modelos generativos, mediante la introducción de un benchmark denominado SEED-Bench. SEED-Bench consta de 19K preguntas de opción múltiple con anotaciones humanas precisas (6 veces más grande que los benchmarks existentes), que abarcan 12 dimensiones de evaluación, incluyendo la comprensión tanto de la modalidad de imagen como de video. Desarrollamos una pipeline avanzada para generar preguntas de opción múltiple que se enfocan en dimensiones de evaluación específicas, integrando procesos de filtrado automático y verificación manual. Las preguntas de opción múltiple con opciones de respuesta correcta derivadas de anotaciones humanas permiten una evaluación objetiva y eficiente del rendimiento del modelo, eliminando la necesidad de intervención humana o de GPT durante la evaluación. Además, evaluamos el rendimiento de 18 modelos en todas las 12 dimensiones, cubriendo tanto la comprensión espacial como temporal. Al revelar las limitaciones de los MLLMs existentes a través de los resultados de la evaluación, nuestro objetivo es que SEED-Bench proporcione ideas para motivar futuras investigaciones. Lanzaremos y mantendremos consistentemente un leaderboard para ofrecer una plataforma a la comunidad con el fin de evaluar e investigar la capacidad de los modelos.
English
Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.
PDF72December 15, 2024