ChatPaper.aiChatPaper

LMMs-Eval: Realiteitscheck bij de Evaluatie van Grote Multimodale Modellen

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

July 17, 2024
Auteurs: Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI

Samenvatting

De vooruitgang van grote foundationmodellen vereist benchmarks met een brede dekking, lage kosten en nul besmetting. Ondanks voortdurende verkenningen van evaluaties van taalmodelen, blijven uitgebreide studies over de evaluatie van Grote Multimodale Modellen (LMMs) beperkt. In dit werk introduceren we LMMS-EVAL, een uniform en gestandaardiseerd multimodaal benchmarkraamwerk met meer dan 50 taken en meer dan 10 modellen om transparante en reproduceerbare evaluaties te bevorderen. Hoewel LMMS-EVAL een uitgebreide dekking biedt, ontbreekt het nog aan lage kosten en nul besmetting. Om dit evaluatiedrilemma te benaderen, introduceren we verder LMMS-EVAL LITE, een gesnoeid evaluatiegereedschap dat zowel dekking als efficiëntie benadrukt. Daarnaast presenteren we Multimodal LIVEBENCH, dat gebruikmaakt van continu bijgewerkt nieuws en online forums om de generalisatievermogens van modellen in de praktijk te beoordelen, met een evaluatiebenadering die laag in kosten en nul besmetting is. Samenvattend benadrukt ons werk het belang van het overwegen van het evaluatiedrilemma en biedt het praktische oplossingen om de afwegingen in de evaluatie van grote multimodale modellen te navigeren, waardoor de weg wordt geëffend voor effectievere en betrouwbaardere benchmarking van LMMs. We openen onze codebase en onderhouden een leaderboard van LIVEBENCH op https://github.com/EvolvingLMMs-Lab/lmms-eval en https://huggingface.co/spaces/lmms-lab/LiveBench.
English
The advances of large foundation models necessitate wide-coverage, low-cost, and zero-contamination benchmarks. Despite continuous exploration of language model evaluations, comprehensive studies on the evaluation of Large Multi-modal Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified and standardized multimodal benchmark framework with over 50 tasks and more than 10 models to promote transparent and reproducible evaluations. Although LMMS-EVAL offers comprehensive coverage, we find it still falls short in achieving low cost and zero contamination. To approach this evaluation trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that emphasizes both coverage and efficiency. Additionally, we present Multimodal LIVEBENCH that utilizes continuously updating news and online forums to assess models' generalization abilities in the wild, featuring a low-cost and zero-contamination evaluation approach. In summary, our work highlights the importance of considering the evaluation trilemma and provides practical solutions to navigate the trade-offs in evaluating large multi-modal models, paving the way for more effective and reliable benchmarking of LMMs. We opensource our codebase and maintain leaderboard of LIVEBENCH at https://github.com/EvolvingLMMs-Lab/lmms-eval and https://huggingface.co/spaces/lmms-lab/LiveBench.
PDF354February 8, 2026