ポイント1.5: 実世界向けのビジョン言語モデルの構築
POINTS1.5: Building a Vision-Language Model towards Real World Applications
December 11, 2024
著者: Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou
cs.AI
要旨
最近、ビジョン言語モデルは著しい進歩を遂げ、光学文字認識や複雑な図解析などのさまざまなタスクで優れたパフォーマンスを示しています。この傾向を受けて、私たちはさまざまな実世界のアプリケーションで優れた性能を発揮するよう設計された新しいビジョン言語モデル、POINTS1.5を紹介します。POINTS1.5はPOINTS1.0の拡張版であり、いくつかの主要な革新を取り入れています。i) 固定された画像解像度を持つ元のCLIPビジョンエンコーダーを、ネイティブなダイナミックな高解像度をサポートするNaViTスタイルのビジョンエンコーダーに置き換えます。これにより、POINTS1.5は画像をタイルに分割することなく、任意の解像度の画像を処理できます。ii) POINTS1.5にバイリンガルサポートを追加し、中国語での機能を大幅に向上させます。ビジョン言語モデル向けのオープンソースの中国語データセットが不足しているため、インターネットから多数の画像を収集し、手動と自動の組み合わせを使用して注釈を付けます。iii) 視覚指示チューニングデータセット用の厳格なフィルタリング手法を提案します。これらのフィルタリング手法を包括的に評価し、最も効果的なものを選択して最終的な視覚指示チューニングセットを取得します。これらの革新により、POINTS1.5はPOINTS1.0を大幅に上回り、さまざまな実世界のアプリケーションで強力なパフォーマンスを発揮します。特に、4十億トークン未満でトレーニングされたPOINTS1.5-7Bは、10十億未満のパラメータを持つモデルの中でOpenCompassリーダーボードで1位にランクインしています。
English
Vision-language models have made significant strides recently, demonstrating
superior performance across a range of tasks, e.g. optical character
recognition and complex diagram analysis. Building on this trend, we introduce
a new vision-language model, POINTS1.5, designed to excel in various real-world
applications. POINTS1.5 is an enhancement of POINTS1.0 and incorporates several
key innovations: i) We replace the original CLIP vision encoder, which had a
fixed image resolution, with a NaViT-style vision encoder that supports native
dynamic high resolution. This allows POINTS1.5 to process images of any
resolution without needing to split them into tiles. ii) We add bilingual
support to POINTS1.5, significantly enhancing its capability in Chinese. Due to
the scarcity of open-source Chinese datasets for vision-language models, we
collect numerous images from the Internet and annotate them using a combination
of manual and automatic methods. iii) We propose a set of rigorous filtering
methods for visual instruction tuning datasets. We comprehensively evaluate all
these filtering methods, and choose the most effective ones to obtain the final
visual instruction tuning set. Thanks to these innovations, POINTS1.5
significantly outperforms POINTS1.0 and demonstrates strong performance across
a range of real-world applications. Notably, POINTS1.5-7B is trained on fewer
than 4 billion tokens and ranks first on the OpenCompass leaderboard among
models with fewer than 10 billion parametersSummary
AI-Generated Summary