ChatPaper.aiChatPaper

LMMs-Eval: Realidad de la Evaluación de Modelos Multimodales Grandes

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

July 17, 2024
Autores: Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, Ziwei Liu
cs.AI

Resumen

Los avances de los grandes modelos base requieren benchmarks de amplia cobertura, bajo costo y sin contaminación. A pesar de la continua exploración de evaluaciones de modelos de lenguaje, los estudios exhaustivos sobre la evaluación de Grandes Modelos Multimodales (LMMs) siguen siendo limitados. En este trabajo, presentamos LMMS-EVAL, un marco de referencia multimodal unificado y estandarizado con más de 50 tareas y más de 10 modelos para promover evaluaciones transparentes y reproducibles. Aunque LMMS-EVAL ofrece una cobertura exhaustiva, encontramos que aún no logra alcanzar un bajo costo y cero contaminación. Para abordar este trilema de evaluación, presentamos LMMS-EVAL LITE, un kit de herramientas de evaluación podado que enfatiza tanto la cobertura como la eficiencia. Además, presentamos Multimodal LIVEBENCH que utiliza noticias actualizadas continuamente y foros en línea para evaluar las capacidades de generalización de los modelos en entornos reales, presentando un enfoque de evaluación de bajo costo y sin contaminación. En resumen, nuestro trabajo destaca la importancia de considerar el trilema de evaluación y proporciona soluciones prácticas para navegar por los compromisos en la evaluación de grandes modelos multimodales, allanando el camino para una evaluación de LMMs más efectiva y confiable. Ponemos a disposición nuestro código fuente y mantenemos la tabla de clasificación de LIVEBENCH en https://github.com/EvolvingLMMs-Lab/lmms-eval y https://huggingface.co/spaces/lmms-lab/LiveBench.
English
The advances of large foundation models necessitate wide-coverage, low-cost, and zero-contamination benchmarks. Despite continuous exploration of language model evaluations, comprehensive studies on the evaluation of Large Multi-modal Models (LMMs) remain limited. In this work, we introduce LMMS-EVAL, a unified and standardized multimodal benchmark framework with over 50 tasks and more than 10 models to promote transparent and reproducible evaluations. Although LMMS-EVAL offers comprehensive coverage, we find it still falls short in achieving low cost and zero contamination. To approach this evaluation trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that emphasizes both coverage and efficiency. Additionally, we present Multimodal LIVEBENCH that utilizes continuously updating news and online forums to assess models' generalization abilities in the wild, featuring a low-cost and zero-contamination evaluation approach. In summary, our work highlights the importance of considering the evaluation trilemma and provides practical solutions to navigate the trade-offs in evaluating large multi-modal models, paving the way for more effective and reliable benchmarking of LMMs. We opensource our codebase and maintain leaderboard of LIVEBENCH at https://github.com/EvolvingLMMs-Lab/lmms-eval and https://huggingface.co/spaces/lmms-lab/LiveBench.

Summary

AI-Generated Summary

PDF364November 28, 2024