ChatPaper.aiChatPaper

LMMs-Eval: Realitätscheck bei der Evaluation von großen multimodalen Modellen

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

July 17, 2024
Autoren: Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI

Zusammenfassung

Die Fortschritte großer Grundlagenmodelle erfordern umfassende, kostengünstige und kontaminationsfreie Benchmarks. Trotz kontinuierlicher Erkundungen von Sprachmodellbewertungen sind umfassende Studien zur Bewertung großer multimodaler Modelle (LMMs) begrenzt. In dieser Arbeit stellen wir LMMS-EVAL vor, ein einheitliches und standardisiertes multimodales Benchmark-Framework mit über 50 Aufgaben und mehr als 10 Modellen, um transparente und reproduzierbare Bewertungen zu fördern. Obwohl LMMS-EVAL eine umfassende Abdeckung bietet, stellen wir fest, dass es immer noch Schwierigkeiten hat, niedrige Kosten und keine Kontamination zu erreichen. Um dieses Bewertungsdilemma anzugehen, führen wir LMMS-EVAL LITE ein, ein reduziertes Bewertungstoolkit, das sowohl Abdeckung als auch Effizienz betont. Darüber hinaus präsentieren wir Multimodal LIVEBENCH, das kontinuierlich aktualisierte Nachrichten und Online-Foren nutzt, um die Verallgemeinerungsfähigkeiten der Modelle in der Praxis zu bewerten und dabei einen kostengünstigen und kontaminationsfreien Bewertungsansatz bietet. Zusammenfassend betont unsere Arbeit die Bedeutung der Berücksichtigung des Bewertungsdilemmas und bietet praktische Lösungen, um die Kompromisse bei der Bewertung großer multimodaler Modelle zu bewältigen und den Weg für effektivere und zuverlässigere Benchmarktests von LMMs zu ebnen. Wir stellen unseren Code frei zur Verfügung und pflegen eine Bestenliste von LIVEBENCH unter https://github.com/EvolvingLMMs-Lab/lmms-eval und https://huggingface.co/spaces/lmms-lab/LiveBench.
English
The advances of large foundation models necessitate wide-coverage, low-cost, and zero-contamination benchmarks. Despite continuous exploration of language model evaluations, comprehensive studies on the evaluation of Large Multi-modal Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified and standardized multimodal benchmark framework with over 50 tasks and more than 10 models to promote transparent and reproducible evaluations. Although LMMS-EVAL offers comprehensive coverage, we find it still falls short in achieving low cost and zero contamination. To approach this evaluation trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that emphasizes both coverage and efficiency. Additionally, we present Multimodal LIVEBENCH that utilizes continuously updating news and online forums to assess models' generalization abilities in the wild, featuring a low-cost and zero-contamination evaluation approach. In summary, our work highlights the importance of considering the evaluation trilemma and provides practical solutions to navigate the trade-offs in evaluating large multi-modal models, paving the way for more effective and reliable benchmarking of LMMs. We opensource our codebase and maintain leaderboard of LIVEBENCH at https://github.com/EvolvingLMMs-Lab/lmms-eval and https://huggingface.co/spaces/lmms-lab/LiveBench.

Summary

AI-Generated Summary

PDF364November 28, 2024