ACE: Универсальный Создатель и Редактор, Следующий Инструкциям через Диффузию Трансформер

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

September 30, 2024
Авторы: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou
cs.AI

Аннотация

Модели диффузии стали мощным генеративным инструментом и нашли применение в различных сценариях. Большинство существующих фундаментальных моделей диффузии в основном предназначены для генерации визуальных данных под управлением текста и не поддерживают мультимодальные условия, которые являются необходимыми для многих задач редактирования визуальных данных. Это ограничение мешает этим фундаментальным моделям диффузии выступать в качестве универсальной модели в области генерации визуальных данных, подобно GPT-4 в области обработки естественного языка. В данной работе мы предлагаем ACE, Всестороннего Создателя и Редактора, который достигает сопоставимой производительности по сравнению с этими экспертными моделями в широком спектре задач генерации визуальных данных. Для достижения этой цели мы сначала представляем унифицированный формат условий под названием Блок Условий Длинного Контекста (LCU) и предлагаем новую модель диффузии на основе трансформера, которая использует LCU в качестве входных данных, нацеленную на совместное обучение по различным задачам генерации и редактирования. Кроме того, мы предлагаем эффективный подход к сбору данных для решения проблемы отсутствия доступных данных для обучения. Он включает в себя получение парных изображений с использованием синтеза или кластеризации и предоставление этих пар с точными текстовыми инструкциями путем использования донастроенной многомодальной крупной языковой модели. Для всесторонней оценки производительности нашей модели мы устанавливаем стандартный набор данных с ручной разметкой пар для различных задач генерации визуальных данных. Обширные экспериментальные результаты демонстрируют превосходство нашей модели в области генерации визуальных данных. Благодаря всем встроенным возможностям нашей модели, мы можем легко создать мультимодальную чат-систему, которая реагирует на любой интерактивный запрос на создание изображения, используя единую модель в качестве бэкэнда, избегая громоздкого конвейера, обычно используемого в визуальных агентах. Код и модели будут доступны на странице проекта: https://ali-vilab.github.io/ace-page/.
English
Diffusion models have emerged as a powerful generative technology and have been found to be applicable in various scenarios. Most existing foundational diffusion models are primarily designed for text-guided visual generation and do not support multi-modal conditions, which are essential for many visual editing tasks. This limitation prevents these foundational diffusion models from serving as a unified model in the field of visual generation, like GPT-4 in the natural language processing field. In this work, we propose ACE, an All-round Creator and Editor, which achieves comparable performance compared to those expert models in a wide range of visual generation tasks. To achieve this goal, we first introduce a unified condition format termed Long-context Condition Unit (LCU), and propose a novel Transformer-based diffusion model that uses LCU as input, aiming for joint training across various generation and editing tasks. Furthermore, we propose an efficient data collection approach to address the issue of the absence of available training data. It involves acquiring pairwise images with synthesis-based or clustering-based pipelines and supplying these pairs with accurate textual instructions by leveraging a fine-tuned multi-modal large language model. To comprehensively evaluate the performance of our model, we establish a benchmark of manually annotated pairs data across a variety of visual generation tasks. The extensive experimental results demonstrate the superiority of our model in visual generation fields. Thanks to the all-in-one capabilities of our model, we can easily build a multi-modal chat system that responds to any interactive request for image creation using a single model to serve as the backend, avoiding the cumbersome pipeline typically employed in visual agents. Code and models will be available on the project page: https://ali-vilab.github.io/ace-page/.

Summary

AI-Generated Summary

PDF122November 13, 2024