ビジョンにおける自己回帰モデル:サーベイ
Autoregressive Models in Vision: A Survey
November 8, 2024
著者: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
cs.AI
要旨
自己回帰モデリングは自然言語処理(NLP)分野で大きな成功を収めています。最近、自己回帰モデルはコンピュータビジョン分野でも重要な焦点となり、高品質な視覚コンテンツを生成するのに優れています。NLPの自己回帰モデルは通常、サブワードトークン上で動作します。しかし、コンピュータビジョンにおける表現戦略は、言語の連続構造と比較して、視覚データの多様性と階層性を反映して、異なるレベル(ピクセルレベル、トークンレベル、スケールレベル)で異なることがあります。この調査は、視覚に適用された自己回帰モデルに関する文献を包括的に検討しています。異なる研究バックグラウンドを持つ研究者にとって読みやすさを向上させるために、最初に視覚における初期のシーケンス表現とモデリングから始めます。次に、視覚の自己回帰モデルの基本的なフレームワークを、表現戦略に基づいてピクセルベース、トークンベース、スケールベースのモデルの3つの一般的なサブカテゴリに分けます。その後、自己回帰モデルと他の生成モデルとの相互関係を探ります。さらに、画像生成、ビデオ生成、3D生成、マルチモーダル生成を含むコンピュータビジョンにおける自己回帰モデルの多面的な分類を提示します。また、エンボディドAIや3D医療AIなどの新興領域を含む多様な領域での応用について詳細に説明し、約250の関連文献を紹介します。最後に、視覚における自己回帰モデルへの現在の課題と、潜在的な研究方向に関する提案を強調します。この調査で取り上げられている論文を整理するためのGitHubリポジトリも設定しました:https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
English
Autoregressive modeling has been a huge success in the field of natural
language processing (NLP). Recently, autoregressive models have emerged as a
significant area of focus in computer vision, where they excel in producing
high-quality visual content. Autoregressive models in NLP typically operate on
subword tokens. However, the representation strategy in computer vision can
vary in different levels, i.e., pixel-level, token-level, or
scale-level, reflecting the diverse and hierarchical nature of visual data
compared to the sequential structure of language. This survey comprehensively
examines the literature on autoregressive models applied to vision. To improve
readability for researchers from diverse research backgrounds, we start with
preliminary sequence representation and modeling in vision. Next, we divide the
fundamental frameworks of visual autoregressive models into three general
sub-categories, including pixel-based, token-based, and scale-based models
based on the strategy of representation. We then explore the interconnections
between autoregressive models and other generative models. Furthermore, we
present a multi-faceted categorization of autoregressive models in computer
vision, including image generation, video generation, 3D generation, and
multi-modal generation. We also elaborate on their applications in diverse
domains, including emerging domains such as embodied AI and 3D medical AI, with
about 250 related references. Finally, we highlight the current challenges to
autoregressive models in vision with suggestions about potential research
directions. We have also set up a Github repository to organize the papers
included in this survey at:
https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.Summary
AI-Generated Summary