説明的な指示:統一されたビジョンタスク理解とゼロショット汎化へExplanatory Instructions: Towards Unified Vision Tasks Understanding and
Zero-shot Generalization
コンピュータビジョン(CV)は、自然言語処理(NLP)で観察されるゼロショットタスクの汎化を完全に達成していません。NLPで確立された多くのマイルストーンに従っており、大規模なトランスフォーマーモデル、広範な事前トレーニング、自己回帰パラダイムなどを採用しています。本論文では、CVが離散的で用語的なタスク定義(例:「画像セグメンテーション」)を採用していることが、ゼロショットタスクの汎化の主要な障壁である可能性を探求します。私たちの仮説は、これらの用語的定義によって以前に見たタスクを真に理解していないため、深層モデルが新しいタスクに汎化するのに苦労しているというものです。これを検証するために、入力画像から出力への詳細な言語的変換を介してCVタスク目標を直感的に定義する説明的指示を導入します。12百万の「画像入力から説明的指示への出力」トリプレットからなる大規模データセットを作成し、画像と説明的指示の両方を入力とする自己回帰型ビジョン言語モデル(ARベースのVLM)をトレーニングします。これらの指示に従うことを学習することで、ARベースのVLMは以前に見たタスクにおける指示レベルのゼロショット能力を達成し、見たことのないCVタスクに対する強力なゼロショット汎化を実証します。コードとデータセットは当社のGitHubリポジトリで公開されます。