LMMs-Eval: Verifica della Realtà sulla Valutazione dei Modelli Multimodali di Grandi Dimensioni
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
July 17, 2024
Autori: Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI
Abstract
I progressi dei grandi modelli di base richiedono benchmark a ampia copertura, basso costo e zero contaminazione. Nonostante l'esplorazione continua delle valutazioni dei modelli linguistici, gli studi completi sulla valutazione dei Large Multi-modal Models (LMM) rimangono limitati. In questo lavoro, introduciamo LMMS-EVAL, un framework di benchmark multimodale unificato e standardizzato con oltre 50 task e più di 10 modelli, per promuovere valutazioni trasparenti e riproducibili. Sebbene LMMS-EVAL offra una copertura completa, riscontriamo che non riesce ancora a raggiungere bassi costi e zero contaminazione. Per affrontare questo trilemma di valutazione, introduciamo ulteriormente LMMS-EVAL LITE, un toolkit di valutazione ridotto che enfatizza sia la copertura che l'efficienza. Inoltre, presentiamo Multimodal LIVEBENCH, che utilizza notizie e forum online in continuo aggiornamento per valutare le capacità di generalizzazione dei modelli nel mondo reale, caratterizzato da un approccio di valutazione a basso costo e zero contaminazione. In sintesi, il nostro lavoro sottolinea l'importanza di considerare il trilemma di valutazione e fornisce soluzioni pratiche per navigare i compromessi nella valutazione dei grandi modelli multimodali, aprendo la strada a un benchmarking più efficace e affidabile degli LMM. Rendiamo open source il nostro codice e manteniamo la classifica di LIVEBENCH su https://github.com/EvolvingLMMs-Lab/lmms-eval e https://huggingface.co/spaces/lmms-lab/LiveBench.
English
The advances of large foundation models necessitate wide-coverage, low-cost,
and zero-contamination benchmarks. Despite continuous exploration of language
model evaluations, comprehensive studies on the evaluation of Large Multi-modal
Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified
and standardized multimodal benchmark framework with over 50 tasks and more
than 10 models to promote transparent and reproducible evaluations. Although
LMMS-EVAL offers comprehensive coverage, we find it still falls short in
achieving low cost and zero contamination. To approach this evaluation
trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that
emphasizes both coverage and efficiency. Additionally, we present Multimodal
LIVEBENCH that utilizes continuously updating news and online forums to assess
models' generalization abilities in the wild, featuring a low-cost and
zero-contamination evaluation approach. In summary, our work highlights the
importance of considering the evaluation trilemma and provides practical
solutions to navigate the trade-offs in evaluating large multi-modal models,
paving the way for more effective and reliable benchmarking of LMMs. We
opensource our codebase and maintain leaderboard of LIVEBENCH at
https://github.com/EvolvingLMMs-Lab/lmms-eval and
https://huggingface.co/spaces/lmms-lab/LiveBench.