LMMs-Eval: Реальная проверка оценки больших мультимодальных моделей
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
July 17, 2024
Авторы: Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI
Аннотация
Продвижение крупных базовых моделей требует широкопокрывающих, недорогих и нулевых контаминированных бенчмарков. Несмотря на постоянное изучение оценок языковых моделей, обширные исследования оценки Больших Мультимодальных Моделей (LMMs) остаются ограниченными. В данной работе мы представляем LMMS-EVAL, унифицированную и стандартизированную мультимодальную бенчмарк-систему с более чем 50 задачами и более чем 10 моделями для содействия прозрачным и воспроизводимым оценкам. Хотя LMMS-EVAL обеспечивает всестороннее покрытие, мы обнаружили, что ему все еще не хватает для достижения низкой стоимости и нулевой контаминации. Для решения этой оценочной трилеммы мы дополнительно представляем LMMS-EVAL LITE, обрезанный набор инструментов для оценки, который акцентирует как покрытие, так и эффективность. Кроме того, мы представляем Multimodal LIVEBENCH, который использует постоянно обновляемые новости и онлайн-форумы для оценки способностей моделей к обобщению в реальных условиях, предлагая подход к оценке низкой стоимости и нулевой контаминации. В заключение, наша работа подчеркивает важность учета оценочной трилеммы и предоставляет практические решения для нахождения компромиссов при оценке больших мультимодальных моделей, что открывает путь к более эффективному и надежному бенчмаркингу LMMs. Мы публикуем наш код и поддерживаем таблицу лидеров LIVEBENCH по адресам https://github.com/EvolvingLMMs-Lab/lmms-eval и https://huggingface.co/spaces/lmms-lab/LiveBench.
English
The advances of large foundation models necessitate wide-coverage, low-cost,
and zero-contamination benchmarks. Despite continuous exploration of language
model evaluations, comprehensive studies on the evaluation of Large Multi-modal
Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified
and standardized multimodal benchmark framework with over 50 tasks and more
than 10 models to promote transparent and reproducible evaluations. Although
LMMS-EVAL offers comprehensive coverage, we find it still falls short in
achieving low cost and zero contamination. To approach this evaluation
trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that
emphasizes both coverage and efficiency. Additionally, we present Multimodal
LIVEBENCH that utilizes continuously updating news and online forums to assess
models' generalization abilities in the wild, featuring a low-cost and
zero-contamination evaluation approach. In summary, our work highlights the
importance of considering the evaluation trilemma and provides practical
solutions to navigate the trade-offs in evaluating large multi-modal models,
paving the way for more effective and reliable benchmarking of LMMs. We
opensource our codebase and maintain leaderboard of LIVEBENCH at
https://github.com/EvolvingLMMs-Lab/lmms-eval and
https://huggingface.co/spaces/lmms-lab/LiveBench.Summary
AI-Generated Summary