PixWizard: Универсальный визуальный ассистент по преобразованию изображений с открытым языком инструкций.
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions
September 23, 2024
Авторы: Weifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li
cs.AI
Аннотация
Данный доклад представляет универсального визуального помощника по преобразованию изображений PixWizard, разработанного для генерации, манипуляции и перевода изображений на основе свободно формулируемых языковых инструкций. Для этого мы решаем разнообразные задачи компьютерного зрения в рамках единой структуры генерации изображений-текста-изображений и создаем набор данных Omni Pixel-to-Pixel Instruction-Tuning Dataset. Путем создания подробных шаблонов инструкций на естественном языке мы включаем широкий набор разнообразных задач компьютерного зрения, таких как генерация изображений по тексту, восстановление изображений, привязка изображений, плотное предсказание изображений, редактирование изображений, управляемая генерация, заполнение/выполнение, и другие. Более того, мы используем Диффузионные Трансформеры (DiT) в качестве основной модели и расширяем ее возможности гибким механизмом любого разрешения, позволяя модели динамически обрабатывать изображения на основе соотношения сторон ввода, тесно соответствуя человеческим восприятиям. Модель также включает в себя направленное на структуру и семантику руководство для облегчения эффективного слияния информации из входного изображения. Наши эксперименты показывают, что PixWizard не только обладает впечатляющими способностями к генерации и пониманию изображений с разным разрешением, но также обладает многообещающими способностями к обобщению с невидимыми задачами и инструкциями человека. Код и связанные ресурсы доступны по ссылке https://github.com/AFeng-x/PixWizard
English
This paper presents a versatile image-to-image visual assistant, PixWizard,
designed for image generation, manipulation, and translation based on free-from
language instructions. To this end, we tackle a variety of vision tasks into a
unified image-text-to-image generation framework and curate an Omni
Pixel-to-Pixel Instruction-Tuning Dataset. By constructing detailed instruction
templates in natural language, we comprehensively include a large set of
diverse vision tasks such as text-to-image generation, image restoration, image
grounding, dense image prediction, image editing, controllable generation,
inpainting/outpainting, and more. Furthermore, we adopt Diffusion Transformers
(DiT) as our foundation model and extend its capabilities with a flexible any
resolution mechanism, enabling the model to dynamically process images based on
the aspect ratio of the input, closely aligning with human perceptual
processes. The model also incorporates structure-aware and semantic-aware
guidance to facilitate effective fusion of information from the input image.
Our experiments demonstrate that PixWizard not only shows impressive generative
and understanding abilities for images with diverse resolutions but also
exhibits promising generalization capabilities with unseen tasks and human
instructions. The code and related resources are available at
https://github.com/AFeng-x/PixWizardSummary
AI-Generated Summary