VLMEvalKit: Un Toolkit Open-Source per la Valutazione di Modelli Multi-Modali di Grande Scala
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models
July 16, 2024
Autori: Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen
cs.AI
Abstract
Presentiamo VLMEvalKit: un toolkit open-source basato su PyTorch per la valutazione di modelli multi-modalità di grandi dimensioni. Il toolkit mira a fornire un framework user-friendly e completo per ricercatori e sviluppatori, permettendo loro di valutare modelli multi-modalità esistenti e pubblicare risultati di valutazione riproducibili. In VLMEvalKit, abbiamo implementato oltre 70 diversi modelli multi-modalità di grandi dimensioni, inclusi sia API proprietarie che modelli open-source, oltre a più di 20 benchmark multi-modali. Implementando una singola interfaccia, nuovi modelli possono essere facilmente aggiunti al toolkit, mentre il toolkit gestisce automaticamente i carichi di lavoro rimanenti, tra cui la preparazione dei dati, l'inferenza distribuita, la post-elaborazione delle previsioni e il calcolo delle metriche. Sebbene il toolkit sia attualmente utilizzato principalmente per valutare grandi modelli visione-linguaggio, il suo design è compatibile con aggiornamenti futuri che includono modalità aggiuntive, come audio e video. Sulla base dei risultati di valutazione ottenuti con il toolkit, ospitiamo OpenVLM Leaderboard, una classifica completa per monitorare i progressi della ricerca sull'apprendimento multi-modale. Il toolkit è disponibile all'indirizzo https://github.com/open-compass/VLMEvalKit ed è attivamente mantenuto.
English
We present VLMEvalKit: an open-source toolkit for evaluating large
multi-modality models based on PyTorch. The toolkit aims to provide a
user-friendly and comprehensive framework for researchers and developers to
evaluate existing multi-modality models and publish reproducible evaluation
results. In VLMEvalKit, we implement over 70 different large multi-modality
models, including both proprietary APIs and open-source models, as well as more
than 20 different multi-modal benchmarks. By implementing a single interface,
new models can be easily added to the toolkit, while the toolkit automatically
handles the remaining workloads, including data preparation, distributed
inference, prediction post-processing, and metric calculation. Although the
toolkit is currently mainly used for evaluating large vision-language models,
its design is compatible with future updates that incorporate additional
modalities, such as audio and video. Based on the evaluation results obtained
with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to
track the progress of multi-modality learning research. The toolkit is released
at https://github.com/open-compass/VLMEvalKit and is actively maintained.