VLMEvalKit : Une Boîte à Outils Open-Source pour l'Évaluation des Grands Modèles Multi-Modaux

Résumé

Nous présentons VLMEvalKit : une boîte à outils open-source pour l'évaluation de grands modèles multi-modaux basée sur PyTorch. Cette boîte à outils vise à fournir un cadre convivial et complet permettant aux chercheurs et développeurs d'évaluer les modèles multi-modaux existants et de publier des résultats d'évaluation reproductibles. Dans VLMEvalKit, nous avons implémenté plus de 70 grands modèles multi-modaux différents, incluant à la fois des API propriétaires et des modèles open-source, ainsi que plus de 20 benchmarks multi-modaux. En mettant en œuvre une interface unique, de nouveaux modèles peuvent être facilement ajoutés à la boîte à outils, tandis que celle-ci gère automatiquement les tâches restantes, telles que la préparation des données, l'inférence distribuée, le post-traitement des prédictions et le calcul des métriques. Bien que la boîte à outils soit actuellement principalement utilisée pour évaluer les grands modèles vision-langage, sa conception est compatible avec des mises à jour futures intégrant des modalités supplémentaires, comme l'audio et la vidéo. Sur la base des résultats d'évaluation obtenus avec la boîte à outils, nous hébergeons OpenVLM Leaderboard, un classement complet pour suivre les progrès de la recherche en apprentissage multi-modal. La boîte à outils est disponible à l'adresse https://github.com/open-compass/VLMEvalKit et est activement maintenue.

English

We present VLMEvalKit: an open-source toolkit for evaluating large multi-modality models based on PyTorch. The toolkit aims to provide a user-friendly and comprehensive framework for researchers and developers to evaluate existing multi-modality models and publish reproducible evaluation results. In VLMEvalKit, we implement over 70 different large multi-modality models, including both proprietary APIs and open-source models, as well as more than 20 different multi-modal benchmarks. By implementing a single interface, new models can be easily added to the toolkit, while the toolkit automatically handles the remaining workloads, including data preparation, distributed inference, prediction post-processing, and metric calculation. Although the toolkit is currently mainly used for evaluating large vision-language models, its design is compatible with future updates that incorporate additional modalities, such as audio and video. Based on the evaluation results obtained with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to track the progress of multi-modality learning research. The toolkit is released at https://github.com/open-compass/VLMEvalKit and is actively maintained.

VLMEvalKit : Une Boîte à Outils Open-Source pour l'Évaluation des Grands Modèles Multi-Modaux

VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Résumé

Support