LMMs-Eval: 大規模マルチモーダルモデルの評価に関する現実的検証
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
July 17, 2024
著者: Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI
要旨
大規模基盤モデルの進展に伴い、広範なカバレッジ、低コスト、そしてゼロ汚染を実現したベンチマークが求められています。言語モデルの評価に関する継続的な探求にもかかわらず、大規模マルチモーダルモデル(LMMs)の評価に関する包括的な研究は依然として限られています。本研究では、透明性と再現性のある評価を促進するため、50以上のタスクと10以上のモデルを備えた統一された標準化マルチモーダルベンチマークフレームワークであるLMMS-EVALを紹介します。LMMS-EVALは包括的なカバレッジを提供しますが、低コストとゼロ汚染の達成にはまだ不十分であることがわかりました。この評価のトリレンマにアプローチするため、カバレッジと効率性を重視した剪定版評価ツールキットであるLMMS-EVAL LITEをさらに紹介します。加えて、継続的に更新されるニュースやオンラインフォーラムを活用し、モデルの実世界での汎化能力を評価するMultimodal LIVEBENCHを提案します。これは低コストかつゼロ汚染の評価アプローチを特徴としています。要約すると、本研究は評価のトリレンマを考慮することの重要性を強調し、大規模マルチモーダルモデルの評価におけるトレードオフをナビゲートするための実践的な解決策を提供し、LMMsのより効果的で信頼性の高いベンチマークの道を開きます。私たちはコードベースをオープンソース化し、LIVEBENCHのリーダーボードをhttps://github.com/EvolvingLMMs-Lab/lmms-evalおよびhttps://huggingface.co/spaces/lmms-lab/LiveBenchで維持しています。
English
The advances of large foundation models necessitate wide-coverage, low-cost,
and zero-contamination benchmarks. Despite continuous exploration of language
model evaluations, comprehensive studies on the evaluation of Large Multi-modal
Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified
and standardized multimodal benchmark framework with over 50 tasks and more
than 10 models to promote transparent and reproducible evaluations. Although
LMMS-EVAL offers comprehensive coverage, we find it still falls short in
achieving low cost and zero contamination. To approach this evaluation
trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that
emphasizes both coverage and efficiency. Additionally, we present Multimodal
LIVEBENCH that utilizes continuously updating news and online forums to assess
models' generalization abilities in the wild, featuring a low-cost and
zero-contamination evaluation approach. In summary, our work highlights the
importance of considering the evaluation trilemma and provides practical
solutions to navigate the trade-offs in evaluating large multi-modal models,
paving the way for more effective and reliable benchmarking of LMMs. We
opensource our codebase and maintain leaderboard of LIVEBENCH at
https://github.com/EvolvingLMMs-Lab/lmms-eval and
https://huggingface.co/spaces/lmms-lab/LiveBench.Summary
AI-Generated Summary