ChatPaper.aiChatPaper

大視覚エンコーダーの多様モーダル自己回帰事前学習

Multimodal Autoregressive Pre-training of Large Vision Encoders

November 21, 2024
著者: Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby
cs.AI

要旨

大規模ビジョンエンコーダの事前学習のための新しい手法を紹介します。 ビジョンモデルの自己回帰的事前学習の最近の進歩に基づき、このフレームワークを画像とテキストのような多様なモーダル設定に拡張します。本論文では、AIMV2という、直感的な事前学習プロセス、スケーラビリティ、および様々な下流タスクで優れたパフォーマンスを持つ汎用ビジョンエンコーダのファミリーを提案します。これは、ビジョンエンコーダを自己回帰的に生の画像パッチとテキストトークンを生成するマルチモーダルデコーダとペアにすることで達成されます。当社のエンコーダは、マルチモーダル評価だけでなく、位置特定、グラウンディング、および分類などのビジョンベンチマークでも優れた成績を収めています。特に、当社のAIMV2-3Bエンコーダは、凍結トランクを用いてImageNet-1kで89.5%の精度を達成しています。さらに、AIMV2は、さまざまな設定において、最先端のコントラスティブモデル(例:CLIP、SigLIP)を常に上回り、マルチモーダル画像理解において優れた性能を発揮しています。
English
We introduce a novel method for pre-training of large-scale vision encoders. Building on recent advancements in autoregressive pre-training of vision models, we extend this framework to a multimodal setting, i.e., images and text. In this paper, we present AIMV2, a family of generalist vision encoders characterized by a straightforward pre-training process, scalability, and remarkable performance across a range of downstream tasks. This is achieved by pairing the vision encoder with a multimodal decoder that autoregressively generates raw image patches and text tokens. Our encoders excel not only in multimodal evaluations but also in vision benchmarks such as localization, grounding, and classification. Notably, our AIMV2-3B encoder achieves 89.5% accuracy on ImageNet-1k with a frozen trunk. Furthermore, AIMV2 consistently outperforms state-of-the-art contrastive models (e.g., CLIP, SigLIP) in multimodal image understanding across diverse settings.
PDF473November 22, 2024