ChatPaper.aiChatPaper

VLMEvalKit: Un conjunto de herramientas de código abierto para evaluar modelos de gran escala de múltiples modalidades.

VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

July 16, 2024
Autores: Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen
cs.AI

Resumen

Presentamos VLMEvalKit: un conjunto de herramientas de código abierto para evaluar modelos de gran tamaño de múltiples modalidades basados en PyTorch. El objetivo de este conjunto de herramientas es proporcionar un marco completo y fácil de usar para que investigadores y desarrolladores evalúen modelos de múltiples modalidades existentes y publiquen resultados de evaluación reproducibles. En VLMEvalKit, implementamos más de 70 modelos de gran tamaño de diferentes modalidades, que incluyen tanto APIs propietarias como modelos de código abierto, así como más de 20 benchmarks de múltiples modalidades diferentes. Al implementar una única interfaz, nuevos modelos pueden ser fácilmente añadidos al conjunto de herramientas, mientras que este maneja automáticamente las demás cargas de trabajo, incluyendo la preparación de datos, inferencia distribuida, post-procesamiento de predicciones y cálculo de métricas. Aunque actualmente el conjunto de herramientas se utiliza principalmente para evaluar grandes modelos de visión-lenguaje, su diseño es compatible con futuras actualizaciones que incorporen modalidades adicionales, como audio y video. Basándonos en los resultados de evaluación obtenidos con el conjunto de herramientas, alojamos OpenVLM Leaderboard, un completo tablero para seguir el progreso de la investigación en aprendizaje de múltiples modalidades. El conjunto de herramientas se encuentra disponible en https://github.com/open-compass/VLMEvalKit y se mantiene activamente.
English
We present VLMEvalKit: an open-source toolkit for evaluating large multi-modality models based on PyTorch. The toolkit aims to provide a user-friendly and comprehensive framework for researchers and developers to evaluate existing multi-modality models and publish reproducible evaluation results. In VLMEvalKit, we implement over 70 different large multi-modality models, including both proprietary APIs and open-source models, as well as more than 20 different multi-modal benchmarks. By implementing a single interface, new models can be easily added to the toolkit, while the toolkit automatically handles the remaining workloads, including data preparation, distributed inference, prediction post-processing, and metric calculation. Although the toolkit is currently mainly used for evaluating large vision-language models, its design is compatible with future updates that incorporate additional modalities, such as audio and video. Based on the evaluation results obtained with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to track the progress of multi-modality learning research. The toolkit is released at https://github.com/open-compass/VLMEvalKit and is actively maintained.

Summary

AI-Generated Summary

PDF143November 28, 2024