MM-Vet: Evaluatie van Grote Multimodale Modellen voor Geïntegreerde Vaardigheden

Samenvatting

Wij stellen MM-Vet voor, een evaluatiebenchmark die grote multimodale modellen (LMMs) onderzoekt op complexe multimodale taken. Recente LMMs hebben verschillende intrigerende vaardigheden getoond, zoals het oplossen van wiskundige problemen die op het schoolbord geschreven staan, het redeneren over gebeurtenissen en beroemdheden in nieuwsafbeeldingen, en het uitleggen van visuele grappen. De snelle vooruitgang van modellen stelt de ontwikkeling van evaluatiebenchmarks voor uitdagingen. Problemen zijn onder meer: (1) Hoe de complexe multimodale taken systematisch te structureren en te evalueren; (2) Hoe evaluatiemetrics te ontwerpen die goed werken voor verschillende vraag- en antwoordtypen; en (3) Hoe inzichten in modellen te geven die verder gaan dan een eenvoudige prestatieranking. Daarom presenteren wij MM-Vet, ontworpen op basis van het inzicht dat de intrigerende vaardigheid om complexe taken op te lossen vaak wordt bereikt door een generalistisch model dat verschillende kernvisie-taal (VL) vaardigheden kan integreren. MM-Vet definieert 6 kern-VL-vaardigheden en onderzoekt de 16 integraties van belang die voortkomen uit de combinatie van vaardigheden. Voor evaluatiemetrics stellen wij een LLM-gebaseerde evaluator voor voor open-einde uitvoer. De evaluator maakt de evaluatie mogelijk over verschillende vraagtypen en antwoordstijlen, wat resulteert in een uniforme scoringsmetric. Wij evalueren representatieve LMMs op MM-Vet, wat inzichten geeft in de vaardigheden van verschillende LMM-systeemparadigma's en modellen. Code en data zijn beschikbaar op https://github.com/yuweihao/MM-Vet.

English

We propose MM-Vet, an evaluation benchmark that examines large multimodal models (LMMs) on complicated multimodal tasks. Recent LMMs have shown various intriguing abilities, such as solving math problems written on the blackboard, reasoning about events and celebrities in news images, and explaining visual jokes. Rapid model advancements pose challenges to evaluation benchmark development. Problems include: (1) How to systematically structure and evaluate the complicated multimodal tasks; (2) How to design evaluation metrics that work well across question and answer types; and (3) How to give model insights beyond a simple performance ranking. To this end, we present MM-Vet, designed based on the insight that the intriguing ability to solve complicated tasks is often achieved by a generalist model being able to integrate different core vision-language (VL) capabilities. MM-Vet defines 6 core VL capabilities and examines the 16 integrations of interest derived from the capability combination. For evaluation metrics, we propose an LLM-based evaluator for open-ended outputs. The evaluator enables the evaluation across different question types and answer styles, resulting in a unified scoring metric. We evaluate representative LMMs on MM-Vet, providing insights into the capabilities of different LMM system paradigms and models. Code and data are available at https://github.com/yuweihao/MM-Vet.

MM-Vet: Evaluatie van Grote Multimodale Modellen voor Geïntegreerde Vaardigheden

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Samenvatting

Support