VLMEvalKit: Ein Open-Source-Toolkit zur Evaluierung großer Multi-Modalitätsmodelle
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models
July 16, 2024
Autoren: Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen
cs.AI
Zusammenfassung
Wir präsentieren VLMEvalKit: ein Open-Source-Toolkit zur Bewertung großer Multimodalitätsmodelle, das auf PyTorch basiert. Das Toolkit zielt darauf ab, ein benutzerfreundliches und umfassendes Rahmenwerk für Forscher und Entwickler bereitzustellen, um bestehende Multimodalitätsmodelle zu bewerten und reproduzierbare Bewertungsergebnisse zu veröffentlichen. In VLMEvalKit implementieren wir über 70 verschiedene große Multimodalitätsmodelle, einschließlich proprietärer APIs und Open-Source-Modelle, sowie mehr als 20 verschiedene multimodale Benchmarks. Durch die Implementierung einer einzigen Schnittstelle können neue Modelle einfach dem Toolkit hinzugefügt werden, während das Toolkit automatisch die verbleibenden Arbeitslasten, einschließlich der Datenvorbereitung, der verteilten Inferenz, der Vorhersage-Nachverarbeitung und der Metrikberechnung, handhabt. Obwohl das Toolkit derzeit hauptsächlich zur Bewertung großer Bildsprachmodelle verwendet wird, ist sein Design kompatibel mit zukünftigen Updates, die zusätzliche Modalitäten wie Audio und Video integrieren. Basierend auf den mit dem Toolkit erhaltenen Bewertungsergebnissen hosten wir die OpenVLM Leaderboard, eine umfassende Rangliste, um den Fortschritt der Multimodalitätslernforschung zu verfolgen. Das Toolkit ist unter https://github.com/open-compass/VLMEvalKit veröffentlicht und wird aktiv gepflegt.
English
We present VLMEvalKit: an open-source toolkit for evaluating large
multi-modality models based on PyTorch. The toolkit aims to provide a
user-friendly and comprehensive framework for researchers and developers to
evaluate existing multi-modality models and publish reproducible evaluation
results. In VLMEvalKit, we implement over 70 different large multi-modality
models, including both proprietary APIs and open-source models, as well as more
than 20 different multi-modal benchmarks. By implementing a single interface,
new models can be easily added to the toolkit, while the toolkit automatically
handles the remaining workloads, including data preparation, distributed
inference, prediction post-processing, and metric calculation. Although the
toolkit is currently mainly used for evaluating large vision-language models,
its design is compatible with future updates that incorporate additional
modalities, such as audio and video. Based on the evaluation results obtained
with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to
track the progress of multi-modality learning research. The toolkit is released
at https://github.com/open-compass/VLMEvalKit and is actively maintained.Summary
AI-Generated Summary