PixWizard: Универсальный визуальный ассистент по преобразованию изображений с открытым языком инструкций.

Аннотация

Данный доклад представляет универсального визуального помощника по преобразованию изображений PixWizard, разработанного для генерации, манипуляции и перевода изображений на основе свободно формулируемых языковых инструкций. Для этого мы решаем разнообразные задачи компьютерного зрения в рамках единой структуры генерации изображений-текста-изображений и создаем набор данных Omni Pixel-to-Pixel Instruction-Tuning Dataset. Путем создания подробных шаблонов инструкций на естественном языке мы включаем широкий набор разнообразных задач компьютерного зрения, таких как генерация изображений по тексту, восстановление изображений, привязка изображений, плотное предсказание изображений, редактирование изображений, управляемая генерация, заполнение/выполнение, и другие. Более того, мы используем Диффузионные Трансформеры (DiT) в качестве основной модели и расширяем ее возможности гибким механизмом любого разрешения, позволяя модели динамически обрабатывать изображения на основе соотношения сторон ввода, тесно соответствуя человеческим восприятиям. Модель также включает в себя направленное на структуру и семантику руководство для облегчения эффективного слияния информации из входного изображения. Наши эксперименты показывают, что PixWizard не только обладает впечатляющими способностями к генерации и пониманию изображений с разным разрешением, но также обладает многообещающими способностями к обобщению с невидимыми задачами и инструкциями человека. Код и связанные ресурсы доступны по ссылке https://github.com/AFeng-x/PixWizard

English

This paper presents a versatile image-to-image visual assistant, PixWizard, designed for image generation, manipulation, and translation based on free-from language instructions. To this end, we tackle a variety of vision tasks into a unified image-text-to-image generation framework and curate an Omni Pixel-to-Pixel Instruction-Tuning Dataset. By constructing detailed instruction templates in natural language, we comprehensively include a large set of diverse vision tasks such as text-to-image generation, image restoration, image grounding, dense image prediction, image editing, controllable generation, inpainting/outpainting, and more. Furthermore, we adopt Diffusion Transformers (DiT) as our foundation model and extend its capabilities with a flexible any resolution mechanism, enabling the model to dynamically process images based on the aspect ratio of the input, closely aligning with human perceptual processes. The model also incorporates structure-aware and semantic-aware guidance to facilitate effective fusion of information from the input image. Our experiments demonstrate that PixWizard not only shows impressive generative and understanding abilities for images with diverse resolutions but also exhibits promising generalization capabilities with unseen tasks and human instructions. The code and related resources are available at https://github.com/AFeng-x/PixWizard