ChatPaper.aiChatPaper

PixWizard:オープン言語指示を持つ多目的画像対画像ビジュアルアシスタント

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

September 23, 2024
著者: Weifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li
cs.AI

要旨

本論文では、自由な自然言語の指示に基づいて画像生成、操作、翻訳を行う汎用的な画像対画像ビジュアルアシスタントであるPixWizardを提案する。このために、さまざまなビジョンタスクを統一された画像テキスト対画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuning Datasetを編纂する。自然言語で詳細な指示テンプレートを構築することで、テキストから画像生成、画像修復、画像グラウンディング、密な画像予測、画像編集、制御可能な生成、インペインティング/アウトペインティングなど、多様なビジョンタスクを包括的に取り入れる。さらに、基本モデルとしてDiffusion Transformers(DiT)を採用し、柔軟な解像度メカニズムを導入して、入力のアスペクト比に基づいて画像を動的に処理することが可能となり、人間の知覚プロセスに密接に合致する。モデルは、入力画像からの情報の効果的な融合を促進するために、構造認識および意味認識ガイダンスも組み込んでいる。実験では、PixWizardが異なる解像度を持つ画像に対して印象的な生成能力と理解能力を示すだけでなく、未知のタスクや人間の指示に対する有望な汎化能力も示すことが示された。コードおよび関連リソースは、https://github.com/AFeng-x/PixWizard で入手可能である。
English
This paper presents a versatile image-to-image visual assistant, PixWizard, designed for image generation, manipulation, and translation based on free-from language instructions. To this end, we tackle a variety of vision tasks into a unified image-text-to-image generation framework and curate an Omni Pixel-to-Pixel Instruction-Tuning Dataset. By constructing detailed instruction templates in natural language, we comprehensively include a large set of diverse vision tasks such as text-to-image generation, image restoration, image grounding, dense image prediction, image editing, controllable generation, inpainting/outpainting, and more. Furthermore, we adopt Diffusion Transformers (DiT) as our foundation model and extend its capabilities with a flexible any resolution mechanism, enabling the model to dynamically process images based on the aspect ratio of the input, closely aligning with human perceptual processes. The model also incorporates structure-aware and semantic-aware guidance to facilitate effective fusion of information from the input image. Our experiments demonstrate that PixWizard not only shows impressive generative and understanding abilities for images with diverse resolutions but also exhibits promising generalization capabilities with unseen tasks and human instructions. The code and related resources are available at https://github.com/AFeng-x/PixWizard

Summary

AI-Generated Summary

PDF262November 16, 2024