PixWizard : Assistant Visuel Image-par-Image Polyvalent avec Instructions en Langage Ouvert
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions
September 23, 2024
Auteurs: Weifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li
cs.AI
Résumé
Cet article présente un assistant visuel d'image à image polyvalent, PixWizard, conçu pour la génération, la manipulation et la traduction d'images basées sur des instructions en langage naturel. À cette fin, nous abordons une variété de tâches de vision dans un cadre unifié de génération d'image-texte-à-image et créons un ensemble de données d'accord d'instructions Omni Pixel-to-Pixel. En construisant des modèles d'instructions détaillés en langage naturel, nous incluons de manière exhaustive un large ensemble de tâches de vision diverses telles que la génération texte-vers-image, la restauration d'image, l'ancrage d'image, la prédiction d'image dense, l'édition d'image, la génération contrôlable, l'inpainting/outpainting, et plus encore. De plus, nous adoptons les Transformateurs de Diffusion (DiT) comme modèle de base et étendons ses capacités avec un mécanisme de résolution flexible, permettant au modèle de traiter dynamiquement les images en fonction du rapport hauteur/largeur de l'entrée, s'alignant étroitement sur les processus perceptifs humains. Le modèle intègre également des orientations conscientes de la structure et du sens pour faciliter la fusion efficace des informations de l'image d'entrée. Nos expériences démontrent que PixWizard montre non seulement des capacités impressionnantes de génération et de compréhension pour des images de résolutions diverses, mais présente également des capacités de généralisation prometteuses avec des tâches inédites et des instructions humaines. Le code et les ressources associées sont disponibles sur https://github.com/AFeng-x/PixWizard
English
This paper presents a versatile image-to-image visual assistant, PixWizard,
designed for image generation, manipulation, and translation based on free-from
language instructions. To this end, we tackle a variety of vision tasks into a
unified image-text-to-image generation framework and curate an Omni
Pixel-to-Pixel Instruction-Tuning Dataset. By constructing detailed instruction
templates in natural language, we comprehensively include a large set of
diverse vision tasks such as text-to-image generation, image restoration, image
grounding, dense image prediction, image editing, controllable generation,
inpainting/outpainting, and more. Furthermore, we adopt Diffusion Transformers
(DiT) as our foundation model and extend its capabilities with a flexible any
resolution mechanism, enabling the model to dynamically process images based on
the aspect ratio of the input, closely aligning with human perceptual
processes. The model also incorporates structure-aware and semantic-aware
guidance to facilitate effective fusion of information from the input image.
Our experiments demonstrate that PixWizard not only shows impressive generative
and understanding abilities for images with diverse resolutions but also
exhibits promising generalization capabilities with unseen tasks and human
instructions. The code and related resources are available at
https://github.com/AFeng-x/PixWizardSummary
AI-Generated Summary