ChatPaper.aiChatPaper

VLMEvalKit: Een Open-Source Toolkit voor het Evalueren van Grote Multi-Modaliteitsmodellen

VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

July 16, 2024
Auteurs: Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen
cs.AI

Samenvatting

Wij presenteren VLMEvalKit: een open-source toolkit voor het evalueren van grote multimodale modellen, gebaseerd op PyTorch. De toolkit heeft als doel een gebruiksvriendelijk en uitgebreid raamwerk te bieden voor onderzoekers en ontwikkelaars om bestaande multimodale modellen te evalueren en reproduceerbare evaluatieresultaten te publiceren. In VLMEvalKit implementeren we meer dan 70 verschillende grote multimodale modellen, waaronder zowel propriëtaire API's als open-source modellen, evenals meer dan 20 verschillende multimodale benchmarks. Door het implementeren van een enkele interface kunnen nieuwe modellen eenvoudig aan de toolkit worden toegevoegd, terwijl de toolkit automatisch de resterende taken afhandelt, zoals gegevensvoorbereiding, gedistribueerde inferentie, post-processing van voorspellingen en metriekberekening. Hoewel de toolkit momenteel voornamelijk wordt gebruikt voor het evalueren van grote visueel-taalkundige modellen, is het ontwerp compatibel met toekomstige updates die aanvullende modaliteiten, zoals audio en video, incorporeren. Op basis van de evaluatieresultaten die met de toolkit zijn verkregen, hosten we de OpenVLM Leaderboard, een uitgebreid scorebord om de voortgang van onderzoek naar multimodaal leren bij te houden. De toolkit is vrijgegeven op https://github.com/open-compass/VLMEvalKit en wordt actief onderhouden.
English
We present VLMEvalKit: an open-source toolkit for evaluating large multi-modality models based on PyTorch. The toolkit aims to provide a user-friendly and comprehensive framework for researchers and developers to evaluate existing multi-modality models and publish reproducible evaluation results. In VLMEvalKit, we implement over 70 different large multi-modality models, including both proprietary APIs and open-source models, as well as more than 20 different multi-modal benchmarks. By implementing a single interface, new models can be easily added to the toolkit, while the toolkit automatically handles the remaining workloads, including data preparation, distributed inference, prediction post-processing, and metric calculation. Although the toolkit is currently mainly used for evaluating large vision-language models, its design is compatible with future updates that incorporate additional modalities, such as audio and video. Based on the evaluation results obtained with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to track the progress of multi-modality learning research. The toolkit is released at https://github.com/open-compass/VLMEvalKit and is actively maintained.
PDF163February 7, 2026