LMMs-Eval: Realidade na Avaliação de Modelos Multimodais Grandes
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models
July 17, 2024
Autores: Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI
Resumo
Os avanços dos grandes modelos de base exigem benchmarks de ampla cobertura, baixo custo e sem contaminação. Apesar da contínua exploração das avaliações de modelos de linguagem, estudos abrangentes sobre a avaliação de Grandes Modelos Multimodais (LMMs) permanecem limitados. Neste trabalho, apresentamos o LMMS-EVAL, um framework de benchmark multimodal unificado e padronizado com mais de 50 tarefas e mais de 10 modelos para promover avaliações transparentes e reproduzíveis. Embora o LMMS-EVAL ofereça cobertura abrangente, observamos que ainda não consegue atingir baixo custo e zero contaminação. Para abordar esse trilema de avaliação, introduzimos o LMMS-EVAL LITE, um kit de ferramentas de avaliação podado que enfatiza tanto a cobertura quanto a eficiência. Além disso, apresentamos o Multimodal LIVEBENCH que utiliza notícias em constante atualização e fóruns online para avaliar as habilidades de generalização dos modelos em ambiente real, apresentando uma abordagem de avaliação de baixo custo e sem contaminação. Em resumo, nosso trabalho destaca a importância de considerar o trilema de avaliação e fornece soluções práticas para navegar entre os compromissos na avaliação de grandes modelos multimodais, abrindo caminho para benchmarking mais eficaz e confiável de LMMs. Disponibilizamos nosso código-fonte e mantemos o leaderboard do LIVEBENCH em https://github.com/EvolvingLMMs-Lab/lmms-eval e https://huggingface.co/spaces/lmms-lab/LiveBench.
English
The advances of large foundation models necessitate wide-coverage, low-cost,
and zero-contamination benchmarks. Despite continuous exploration of language
model evaluations, comprehensive studies on the evaluation of Large Multi-modal
Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified
and standardized multimodal benchmark framework with over 50 tasks and more
than 10 models to promote transparent and reproducible evaluations. Although
LMMS-EVAL offers comprehensive coverage, we find it still falls short in
achieving low cost and zero contamination. To approach this evaluation
trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that
emphasizes both coverage and efficiency. Additionally, we present Multimodal
LIVEBENCH that utilizes continuously updating news and online forums to assess
models' generalization abilities in the wild, featuring a low-cost and
zero-contamination evaluation approach. In summary, our work highlights the
importance of considering the evaluation trilemma and provides practical
solutions to navigate the trade-offs in evaluating large multi-modal models,
paving the way for more effective and reliable benchmarking of LMMs. We
opensource our codebase and maintain leaderboard of LIVEBENCH at
https://github.com/EvolvingLMMs-Lab/lmms-eval and
https://huggingface.co/spaces/lmms-lab/LiveBench.