X-Prompt: 自己回帰型ビジョン言語基盤モデルにおける普遍的なコンテキスト内画像生成に向けてX-Prompt: Towards Universal In-Context Image Generation in
Auto-Regressive Vision Language Foundation Models
インコンテキスト生成は、大規模言語モデル(LLMs)のオープンタスク一般化能力の主要な要素です。わずかな例をコンテキストとして活用することで、LLMsはドメイン内外のタスクの両方を実行できます。LLMsを基盤とする自己回帰型ビジョン言語モデル(VLMs)の最近の進歩は、テキストから画像への生成において印象的なパフォーマンスを示しています。ただし、一般的な画像生成タスクにおけるインコンテキスト学習の潜在能力はほとんど探求されていません。この課題に対処するために、私たちはX-Promptを導入します。これは、純粋な自己回帰型大視覚言語モデルであり、統一されたインコンテキスト学習フレームワーク内で、幅広い既知および未知の画像生成タスクに競争力のあるパフォーマンスを提供するよう設計されています。X-Promptには、インコンテキストの例から有益な特徴を効率的に圧縮する専門的な設計が組み込まれており、より長いインコンテキストトークンシーケンスをサポートし、未知のタスクに一般化する能力を向上させています。テキストと画像の両方の予測のための統一されたトレーニングタスクにより、X-Promptは、インコンテキストの例からの強化されたタスク認識を備えて一般的な画像生成を処理できます。幅広い実験により、モデルのパフォーマンスが多様な既知の画像生成タスク全般にわたって検証され、以前に見たことのないタスクにも一般化する能力が示されています。