PixWizard:オープン言語指示を持つ多目的画像対画像ビジュアルアシスタント
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions
September 23, 2024
著者: Weifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li
cs.AI
要旨
本論文では、自由な自然言語の指示に基づいて画像生成、操作、翻訳を行う汎用的な画像対画像ビジュアルアシスタントであるPixWizardを提案する。このために、さまざまなビジョンタスクを統一された画像テキスト対画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuning Datasetを編纂する。自然言語で詳細な指示テンプレートを構築することで、テキストから画像生成、画像修復、画像グラウンディング、密な画像予測、画像編集、制御可能な生成、インペインティング/アウトペインティングなど、多様なビジョンタスクを包括的に取り入れる。さらに、基本モデルとしてDiffusion Transformers(DiT)を採用し、柔軟な解像度メカニズムを導入して、入力のアスペクト比に基づいて画像を動的に処理することが可能となり、人間の知覚プロセスに密接に合致する。モデルは、入力画像からの情報の効果的な融合を促進するために、構造認識および意味認識ガイダンスも組み込んでいる。実験では、PixWizardが異なる解像度を持つ画像に対して印象的な生成能力と理解能力を示すだけでなく、未知のタスクや人間の指示に対する有望な汎化能力も示すことが示された。コードおよび関連リソースは、https://github.com/AFeng-x/PixWizard で入手可能である。
English
This paper presents a versatile image-to-image visual assistant, PixWizard,
designed for image generation, manipulation, and translation based on free-from
language instructions. To this end, we tackle a variety of vision tasks into a
unified image-text-to-image generation framework and curate an Omni
Pixel-to-Pixel Instruction-Tuning Dataset. By constructing detailed instruction
templates in natural language, we comprehensively include a large set of
diverse vision tasks such as text-to-image generation, image restoration, image
grounding, dense image prediction, image editing, controllable generation,
inpainting/outpainting, and more. Furthermore, we adopt Diffusion Transformers
(DiT) as our foundation model and extend its capabilities with a flexible any
resolution mechanism, enabling the model to dynamically process images based on
the aspect ratio of the input, closely aligning with human perceptual
processes. The model also incorporates structure-aware and semantic-aware
guidance to facilitate effective fusion of information from the input image.
Our experiments demonstrate that PixWizard not only shows impressive generative
and understanding abilities for images with diverse resolutions but also
exhibits promising generalization capabilities with unseen tasks and human
instructions. The code and related resources are available at
https://github.com/AFeng-x/PixWizardSummary
AI-Generated Summary