VLMEvalKit: Um Conjunto de Ferramentas de Código Aberto para Avaliar Modelos de Grande Escala de Multi-Modalidade
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models
July 16, 2024
Autores: Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen
cs.AI
Resumo
Apresentamos o VLMEvalKit: um conjunto de ferramentas de código aberto para avaliar modelos de grande porte de multi-modalidade baseados em PyTorch. O kit tem como objetivo fornecer um framework abrangente e de fácil utilização para pesquisadores e desenvolvedores avaliarem modelos de multi-modalidade existentes e publicarem resultados de avaliação reproduzíveis. No VLMEvalKit, implementamos mais de 70 modelos de grande porte de multi-modalidade diferentes, incluindo APIs proprietárias e modelos de código aberto, bem como mais de 20 benchmarks multi-modais diferentes. Ao implementar uma única interface, novos modelos podem ser facilmente adicionados ao kit, enquanto o kit lida automaticamente com as demais cargas de trabalho, incluindo preparação de dados, inferência distribuída, pós-processamento de previsão e cálculo de métricas. Embora o kit seja atualmente usado principalmente para avaliar grandes modelos de visão e linguagem, seu design é compatível com atualizações futuras que incorporem modalidades adicionais, como áudio e vídeo. Com base nos resultados de avaliação obtidos com o kit, hospedamos o OpenVLM Leaderboard, um leaderboard abrangente para acompanhar o progresso da pesquisa em aprendizado de multi-modalidade. O kit está disponível em https://github.com/open-compass/VLMEvalKit e é ativamente mantido.
English
We present VLMEvalKit: an open-source toolkit for evaluating large
multi-modality models based on PyTorch. The toolkit aims to provide a
user-friendly and comprehensive framework for researchers and developers to
evaluate existing multi-modality models and publish reproducible evaluation
results. In VLMEvalKit, we implement over 70 different large multi-modality
models, including both proprietary APIs and open-source models, as well as more
than 20 different multi-modal benchmarks. By implementing a single interface,
new models can be easily added to the toolkit, while the toolkit automatically
handles the remaining workloads, including data preparation, distributed
inference, prediction post-processing, and metric calculation. Although the
toolkit is currently mainly used for evaluating large vision-language models,
its design is compatible with future updates that incorporate additional
modalities, such as audio and video. Based on the evaluation results obtained
with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to
track the progress of multi-modality learning research. The toolkit is released
at https://github.com/open-compass/VLMEvalKit and is actively maintained.