X-Prompt: 自己回帰型ビジョン言語基盤モデルにおける普遍的なコンテキスト内画像生成に向けて
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models
December 2, 2024
著者: Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
要旨
インコンテキスト生成は、大規模言語モデル(LLMs)のオープンタスク一般化能力の主要な要素です。わずかな例をコンテキストとして活用することで、LLMsはドメイン内外のタスクの両方を実行できます。LLMsを基盤とする自己回帰型ビジョン言語モデル(VLMs)の最近の進歩は、テキストから画像への生成において印象的なパフォーマンスを示しています。ただし、一般的な画像生成タスクにおけるインコンテキスト学習の潜在能力はほとんど探求されていません。この課題に対処するために、私たちはX-Promptを導入します。これは、純粋な自己回帰型大視覚言語モデルであり、統一されたインコンテキスト学習フレームワーク内で、幅広い既知および未知の画像生成タスクに競争力のあるパフォーマンスを提供するよう設計されています。X-Promptには、インコンテキストの例から有益な特徴を効率的に圧縮する専門的な設計が組み込まれており、より長いインコンテキストトークンシーケンスをサポートし、未知のタスクに一般化する能力を向上させています。テキストと画像の両方の予測のための統一されたトレーニングタスクにより、X-Promptは、インコンテキストの例からの強化されたタスク認識を備えて一般的な画像生成を処理できます。幅広い実験により、モデルのパフォーマンスが多様な既知の画像生成タスク全般にわたって検証され、以前に見たことのないタスクにも一般化する能力が示されています。
English
In-context generation is a key component of large language models' (LLMs)
open-task generalization capability. By leveraging a few examples as context,
LLMs can perform both in-domain and out-of-domain tasks. Recent advancements in
auto-regressive vision-language models (VLMs) built upon LLMs have showcased
impressive performance in text-to-image generation. However, the potential of
in-context learning for general image generation tasks remains largely
unexplored. To address this, we introduce X-Prompt, a purely auto-regressive
large-vision language model designed to deliver competitive performance across
a wide range of both seen and unseen image generation tasks, all within a
unified in-context learning framework. X-Prompt incorporates a specialized
design that efficiently compresses valuable features from in-context examples,
supporting longer in-context token sequences and improving its ability to
generalize to unseen tasks. A unified training task for both text and image
prediction enables X-Prompt to handle general image generation with enhanced
task awareness from in-context examples. Extensive experiments validate the
model's performance across diverse seen image generation tasks and its capacity
to generalize to previously unseen tasks.Summary
AI-Generated Summary