ChatPaper.aiChatPaper

PixWizard: Assistente Visivo Immagine-Immagine Versatile con Istruzioni in Linguaggio Aperto

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

September 23, 2024
Autori: Weifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li
cs.AI

Abstract

Questo articolo presenta un versatile assistente visivo immagine-immagine, PixWizard, progettato per la generazione, manipolazione e traduzione di immagini basate su istruzioni in linguaggio libero. A tal fine, affrontiamo una varietà di compiti di visione all'interno di un quadro unificato di generazione immagine-testo-immagine e curiamo un Dataset di Regolazione Istruzionale Pixel-a-Pixel Onnicomprensivo. Costruendo modelli dettagliati di istruzioni in linguaggio naturale, includiamo in modo esaustivo un ampio insieme di compiti di visione diversi come la generazione testo-immagine, il ripristino dell'immagine, l'ancoraggio dell'immagine, la previsione densa dell'immagine, l'editing dell'immagine, la generazione controllabile, l'inpainting/outpainting e altro ancora. Inoltre, adottiamo i Diffusion Transformers (DiT) come modello fondamentale ed estendiamo le sue capacità con un meccanismo flessibile di qualsiasi risoluzione, consentendo al modello di elaborare dinamicamente le immagini in base al rapporto d'aspetto dell'input, allineandosi strettamente con i processi percettivi umani. Il modello incorpora anche una guida consapevole della struttura e della semantica per facilitare la fusione efficace delle informazioni dall'immagine di input. I nostri esperimenti dimostrano che PixWizard non solo mostra impressionanti capacità generative e di comprensione per immagini con risoluzioni diverse, ma mostra anche promettenti capacità di generalizzazione con compiti non visti e istruzioni umane. Il codice e le risorse correlate sono disponibili su https://github.com/AFeng-x/PixWizard
English
This paper presents a versatile image-to-image visual assistant, PixWizard, designed for image generation, manipulation, and translation based on free-from language instructions. To this end, we tackle a variety of vision tasks into a unified image-text-to-image generation framework and curate an Omni Pixel-to-Pixel Instruction-Tuning Dataset. By constructing detailed instruction templates in natural language, we comprehensively include a large set of diverse vision tasks such as text-to-image generation, image restoration, image grounding, dense image prediction, image editing, controllable generation, inpainting/outpainting, and more. Furthermore, we adopt Diffusion Transformers (DiT) as our foundation model and extend its capabilities with a flexible any resolution mechanism, enabling the model to dynamically process images based on the aspect ratio of the input, closely aligning with human perceptual processes. The model also incorporates structure-aware and semantic-aware guidance to facilitate effective fusion of information from the input image. Our experiments demonstrate that PixWizard not only shows impressive generative and understanding abilities for images with diverse resolutions but also exhibits promising generalization capabilities with unseen tasks and human instructions. The code and related resources are available at https://github.com/AFeng-x/PixWizard

Summary

AI-Generated Summary

PDF262November 16, 2024