VisionLLaMA: 視覚タスクのための統一LLaMAインターフェース
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
March 1, 2024
著者: Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
cs.AI
要旨
大規模言語モデルは、テキスト入力を処理するためにトランスフォーマーベースのアーキテクチャを基盤として構築されています。例えば、LLaMAは多くのオープンソース実装の中で際立っています。同じトランスフォーマーを2D画像の処理に使用できるでしょうか?本論文では、この疑問に答えるため、LLaMAに似たビジョントランスフォーマーをプレーン形式とピラミッド形式で公開し、これをVisionLLaMAと名付けました。VisionLLaMAは、ほとんどの視覚タスクを解決するための統一された汎用的なモデリングフレームワークです。我々は、典型的な事前学習パラダイムを用いて、画像認識、特に画像生成の多くの下流タスクにおいてその有効性を広範に評価しました。多くのケースで、VisionLLaMAは従来の最先端ビジョントランスフォーマーを大幅に上回る成果を示しました。我々は、VisionLLaMAが視覚生成と理解のための強力な新しいベースラインモデルとして機能すると確信しています。コードはhttps://github.com/Meituan-AutoML/VisionLLaMAで公開予定です。
English
Large language models are built on top of a transformer-based architecture to
process textual inputs. For example, the LLaMA stands out among many
open-source implementations. Can the same transformer be used to process 2D
images? In this paper, we answer this question by unveiling a LLaMA-like vision
transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored
for this purpose. VisionLLaMA is a unified and generic modelling framework for
solving most vision tasks. We extensively evaluate its effectiveness using
typical pre-training paradigms in a good portion of downstream tasks of image
perception and especially image generation. In many cases, VisionLLaMA have
exhibited substantial gains over the previous state-of-the-art vision
transformers. We believe that VisionLLaMA can serve as a strong new baseline
model for vision generation and understanding. Our code will be released at
https://github.com/Meituan-AutoML/VisionLLaMA.