VLMEvalKit: 大規模マルチモーダルモデル評価のためのオープンソースツールキット
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models
July 16, 2024
著者: Haodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen
cs.AI
要旨
私たちはVLMEvalKitを紹介します。これはPyTorchベースの大規模マルチモーダルモデルを評価するためのオープンソースツールキットです。このツールキットは、研究者や開発者が既存のマルチモーダルモデルを評価し、再現可能な評価結果を公開するためのユーザーフレンドリーで包括的なフレームワークを提供することを目的としています。VLMEvalKitでは、プロプライエタリなAPIやオープンソースモデルを含む70以上の大規模マルチモーダルモデルと、20以上のマルチモーダルベンチマークを実装しています。単一のインターフェースを実装することで、新しいモデルを簡単にツールキットに追加でき、ツールキットはデータ準備、分散推論、予測後処理、メトリック計算などの残りの作業を自動的に処理します。このツールキットは現在、主に大規模視覚言語モデルの評価に使用されていますが、その設計は、音声やビデオなどの追加のモダリティを組み込む将来のアップデートと互換性があります。ツールキットで得られた評価結果に基づいて、マルチモーダル学習研究の進捗を追跡する包括的なリーダーボードであるOpenVLM Leaderboardをホストしています。このツールキットはhttps://github.com/open-compass/VLMEvalKitで公開されており、積極的にメンテナンスされています。
English
We present VLMEvalKit: an open-source toolkit for evaluating large
multi-modality models based on PyTorch. The toolkit aims to provide a
user-friendly and comprehensive framework for researchers and developers to
evaluate existing multi-modality models and publish reproducible evaluation
results. In VLMEvalKit, we implement over 70 different large multi-modality
models, including both proprietary APIs and open-source models, as well as more
than 20 different multi-modal benchmarks. By implementing a single interface,
new models can be easily added to the toolkit, while the toolkit automatically
handles the remaining workloads, including data preparation, distributed
inference, prediction post-processing, and metric calculation. Although the
toolkit is currently mainly used for evaluating large vision-language models,
its design is compatible with future updates that incorporate additional
modalities, such as audio and video. Based on the evaluation results obtained
with the toolkit, we host OpenVLM Leaderboard, a comprehensive leaderboard to
track the progress of multi-modality learning research. The toolkit is released
at https://github.com/open-compass/VLMEvalKit and is actively maintained.Summary
AI-Generated Summary