VLMEvalKit : Une Boîte à Outils Open-Source pour l'Évaluation des Grands Modèles Multi-Modaux
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models
July 16, 2024
Auteurs: Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen
cs.AI
Résumé
Nous présentons VLMEvalKit : une boîte à outils open-source pour l'évaluation de grands modèles multi-modaux basée sur PyTorch. Cette boîte à outils vise à fournir un cadre convivial et complet permettant aux chercheurs et développeurs d'évaluer les modèles multi-modaux existants et de publier des résultats d'évaluation reproductibles. Dans VLMEvalKit, nous avons implémenté plus de 70 grands modèles multi-modaux différents, incluant à la fois des API propriétaires et des modèles open-source, ainsi que plus de 20 benchmarks multi-modaux. En mettant en œuvre une interface unique, de nouveaux modèles peuvent être facilement ajoutés à la boîte à outils, tandis que celle-ci gère automatiquement les tâches restantes, telles que la préparation des données, l'inférence distribuée, le post-traitement des prédictions et le calcul des métriques. Bien que la boîte à outils soit actuellement principalement utilisée pour évaluer les grands modèles vision-langage, sa conception est compatible avec des mises à jour futures intégrant des modalités supplémentaires, comme l'audio et la vidéo. Sur la base des résultats d'évaluation obtenus avec la boîte à outils, nous hébergeons OpenVLM Leaderboard, un classement complet pour suivre les progrès de la recherche en apprentissage multi-modal. La boîte à outils est disponible à l'adresse https://github.com/open-compass/VLMEvalKit et est activement maintenue.
English
We present VLMEvalKit: an open-source toolkit for evaluating large
multi-modality models based on PyTorch. The toolkit aims to provide a
user-friendly and comprehensive framework for researchers and developers to
evaluate existing multi-modality models and publish reproducible evaluation
results. In VLMEvalKit, we implement over 70 different large multi-modality
models, including both proprietary APIs and open-source models, as well as more
than 20 different multi-modal benchmarks. By implementing a single interface,
new models can be easily added to the toolkit, while the toolkit automatically
handles the remaining workloads, including data preparation, distributed
inference, prediction post-processing, and metric calculation. Although the
toolkit is currently mainly used for evaluating large vision-language models,
its design is compatible with future updates that incorporate additional
modalities, such as audio and video. Based on the evaluation results obtained
with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to
track the progress of multi-modality learning research. The toolkit is released
at https://github.com/open-compass/VLMEvalKit and is actively maintained.Summary
AI-Generated Summary