VLMEvalKit: Открытый набор инструментов для оценки крупных многомодальных моделей.
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models
July 16, 2024
Авторы: Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen
cs.AI
Аннотация
Мы представляем VLMEvalKit: открытый набор инструментов для оценки крупных многомодальных моделей на основе PyTorch. Цель набора инструментов - предоставить удобную и всестороннюю платформу для исследователей и разработчиков для оценки существующих многомодальных моделей и публикации воспроизводимых результатов оценки. В VLMEvalKit мы реализуем более 70 различных крупных многомодальных моделей, включая как проприетарные API, так и открытые модели, а также более чем 20 различных многомодальных бенчмарков. Путем реализации единого интерфейса новые модели могут легко добавляться в набор инструментов, в то время как сам набор инструментов автоматически обрабатывает остальные рабочие нагрузки, включая подготовку данных, распределенный вывод, постобработку прогнозов и расчет метрик. Хотя в настоящее время набор инструментов в основном используется для оценки крупных моделей видео-языка, его дизайн совместим с будущими обновлениями, которые включат дополнительные модальности, такие как аудио и видео. На основе результатов оценки, полученных с помощью набора инструментов, мы создали OpenVLM Leaderboard - всесторонний рейтинг для отслеживания прогресса исследований по многомодальному обучению. Набор инструментов доступен по адресу https://github.com/open-compass/VLMEvalKit и активно поддерживается.
English
We present VLMEvalKit: an open-source toolkit for evaluating large
multi-modality models based on PyTorch. The toolkit aims to provide a
user-friendly and comprehensive framework for researchers and developers to
evaluate existing multi-modality models and publish reproducible evaluation
results. In VLMEvalKit, we implement over 70 different large multi-modality
models, including both proprietary APIs and open-source models, as well as more
than 20 different multi-modal benchmarks. By implementing a single interface,
new models can be easily added to the toolkit, while the toolkit automatically
handles the remaining workloads, including data preparation, distributed
inference, prediction post-processing, and metric calculation. Although the
toolkit is currently mainly used for evaluating large vision-language models,
its design is compatible with future updates that incorporate additional
modalities, such as audio and video. Based on the evaluation results obtained
with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to
track the progress of multi-modality learning research. The toolkit is released
at https://github.com/open-compass/VLMEvalKit and is actively maintained.Summary
AI-Generated Summary