Infinity-MM: 大規模かつ高品質な指示データでマルチモーダル性能をスケーリングする
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
October 24, 2024
著者: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
cs.AI
要旨
ビジョン・ランゲージモデル(VLMs)は最近、著しい進歩を遂げていますが、オープンソースの指示データの規模と品質が限られているため、クローズドソースのモデルと比較してパフォーマンスが制限されています。本研究では、この制限に対処するために、40百万のサンプルを持つ大規模なマルチモーダルな指示データセットであるInfinity-MMを導入し、厳格な品質フィルタリングと重複排除を通じて強化しました。また、オープンソースのVLMを基にした合成指示生成手法を提案し、詳細な画像注釈と多様な質問生成を使用しています。このデータを使用して、20億パラメータのVLMであるAquila-VL-2Bを訓練し、同様の規模のモデルにおいて最先端のパフォーマンスを達成しました。これにより、指示データの拡充と合成データの生成がオープンソースモデルのパフォーマンスを著しく向上させることが示されました。
English
Vision-Language Models (VLMs) have recently made significant progress, but
the limited scale and quality of open-source instruction data hinder their
performance compared to closed-source models. In this work, we address this
limitation by introducing Infinity-MM, a large-scale multimodal instruction
dataset with 40 million samples, enhanced through rigorous quality filtering
and deduplication. We also propose a synthetic instruction generation method
based on open-source VLMs, using detailed image annotations and diverse
question generation. Using this data, we trained a 2-billion-parameter VLM,
Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of
similar scale. This demonstrates that expanding instruction data and generating
synthetic data can significantly improve the performance of open-source models.Summary
AI-Generated Summary