ChatPaper.aiChatPaper

LMMs-Eval : Vérification de la réalité sur l'évaluation des grands modèles multimodaux

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

July 17, 2024
Auteurs: Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI

Résumé

Les avancées des grands modèles de base nécessitent des benchmarks à large couverture, à faible coût et sans contamination. Malgré l'exploration continue des évaluations de modèles de langage, les études approfondies sur l'évaluation des grands modèles multimodaux (LMMs) restent limitées. Dans ce travail, nous présentons LMMS-EVAL, un cadre de benchmark multimodal unifié et standardisé comprenant plus de 50 tâches et plus de 10 modèles, visant à promouvoir des évaluations transparentes et reproductibles. Bien que LMMS-EVAL offre une couverture exhaustive, nous constatons qu'il ne parvient pas encore à atteindre un faible coût et une absence de contamination. Pour aborder ce trilemme d'évaluation, nous introduisons LMMS-EVAL LITE, une boîte à outils d'évaluation élaguée qui met l'accent à la fois sur la couverture et l'efficacité. De plus, nous présentons Multimodal LIVEBENCH, qui utilise des actualités et des forums en ligne en constante mise à jour pour évaluer les capacités de généralisation des modèles dans des conditions réelles, en proposant une approche d'évaluation à faible coût et sans contamination. En résumé, notre travail souligne l'importance de prendre en compte le trilemme d'évaluation et fournit des solutions pratiques pour naviguer dans les compromis lors de l'évaluation des grands modèles multimodaux, ouvrant la voie à un benchmarking plus efficace et fiable des LMMs. Nous rendons notre code source ouvert et maintenons un classement de LIVEBENCH sur https://github.com/EvolvingLMMs-Lab/lmms-eval et https://huggingface.co/spaces/lmms-lab/LiveBench.
English
The advances of large foundation models necessitate wide-coverage, low-cost, and zero-contamination benchmarks. Despite continuous exploration of language model evaluations, comprehensive studies on the evaluation of Large Multi-modal Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified and standardized multimodal benchmark framework with over 50 tasks and more than 10 models to promote transparent and reproducible evaluations. Although LMMS-EVAL offers comprehensive coverage, we find it still falls short in achieving low cost and zero contamination. To approach this evaluation trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that emphasizes both coverage and efficiency. Additionally, we present Multimodal LIVEBENCH that utilizes continuously updating news and online forums to assess models' generalization abilities in the wild, featuring a low-cost and zero-contamination evaluation approach. In summary, our work highlights the importance of considering the evaluation trilemma and provides practical solutions to navigate the trade-offs in evaluating large multi-modal models, paving the way for more effective and reliable benchmarking of LMMs. We opensource our codebase and maintain leaderboard of LIVEBENCH at https://github.com/EvolvingLMMs-Lab/lmms-eval and https://huggingface.co/spaces/lmms-lab/LiveBench.

Summary

AI-Generated Summary

PDF364November 28, 2024