MM-Vet: Evaluatie van Grote Multimodale Modellen voor Geïntegreerde Vaardigheden
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
August 4, 2023
Auteurs: Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, Lijuan Wang
cs.AI
Samenvatting
Wij stellen MM-Vet voor, een evaluatiebenchmark die grote multimodale modellen (LMMs) onderzoekt op complexe multimodale taken. Recente LMMs hebben verschillende intrigerende vaardigheden getoond, zoals het oplossen van wiskundige problemen die op het schoolbord geschreven staan, het redeneren over gebeurtenissen en beroemdheden in nieuwsafbeeldingen, en het uitleggen van visuele grappen. De snelle vooruitgang van modellen stelt de ontwikkeling van evaluatiebenchmarks voor uitdagingen. Problemen zijn onder meer: (1) Hoe de complexe multimodale taken systematisch te structureren en te evalueren; (2) Hoe evaluatiemetrics te ontwerpen die goed werken voor verschillende vraag- en antwoordtypen; en (3) Hoe inzichten in modellen te geven die verder gaan dan een eenvoudige prestatieranking. Daarom presenteren wij MM-Vet, ontworpen op basis van het inzicht dat de intrigerende vaardigheid om complexe taken op te lossen vaak wordt bereikt door een generalistisch model dat verschillende kernvisie-taal (VL) vaardigheden kan integreren. MM-Vet definieert 6 kern-VL-vaardigheden en onderzoekt de 16 integraties van belang die voortkomen uit de combinatie van vaardigheden. Voor evaluatiemetrics stellen wij een LLM-gebaseerde evaluator voor voor open-einde uitvoer. De evaluator maakt de evaluatie mogelijk over verschillende vraagtypen en antwoordstijlen, wat resulteert in een uniforme scoringsmetric. Wij evalueren representatieve LMMs op MM-Vet, wat inzichten geeft in de vaardigheden van verschillende LMM-systeemparadigma's en modellen. Code en data zijn beschikbaar op https://github.com/yuweihao/MM-Vet.
English
We propose MM-Vet, an evaluation benchmark that examines large multimodal
models (LMMs) on complicated multimodal tasks. Recent LMMs have shown various
intriguing abilities, such as solving math problems written on the blackboard,
reasoning about events and celebrities in news images, and explaining visual
jokes. Rapid model advancements pose challenges to evaluation benchmark
development. Problems include: (1) How to systematically structure and evaluate
the complicated multimodal tasks; (2) How to design evaluation metrics that
work well across question and answer types; and (3) How to give model insights
beyond a simple performance ranking. To this end, we present MM-Vet, designed
based on the insight that the intriguing ability to solve complicated tasks is
often achieved by a generalist model being able to integrate different core
vision-language (VL) capabilities. MM-Vet defines 6 core VL capabilities and
examines the 16 integrations of interest derived from the capability
combination. For evaluation metrics, we propose an LLM-based evaluator for
open-ended outputs. The evaluator enables the evaluation across different
question types and answer styles, resulting in a unified scoring metric. We
evaluate representative LMMs on MM-Vet, providing insights into the
capabilities of different LMM system paradigms and models. Code and data are
available at https://github.com/yuweihao/MM-Vet.