ACE: Criador e Editor Versátil Seguindo Instruções via Difusão Transformer
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer
September 30, 2024
Autores: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou
cs.AI
Resumo
Os modelos de difusão surgiram como uma tecnologia generativa poderosa e têm se mostrado aplicáveis em vários cenários. A maioria dos modelos de difusão fundamentais existentes são principalmente projetados para geração visual guiada por texto e não suportam condições multimodais, essenciais para muitas tarefas de edição visual. Essa limitação impede que esses modelos fundamentais de difusão atuem como um modelo unificado no campo da geração visual, como o GPT-4 no campo de processamento de linguagem natural. Neste trabalho, propomos o ACE, um Criador e Editor Completo, que alcança desempenho comparável aos desses modelos especializados em uma ampla gama de tarefas de geração visual. Para alcançar esse objetivo, primeiro introduzimos um formato de condição unificada denominado Unidade de Condição de Contexto Longo (LCU) e propomos um novo modelo de difusão baseado em Transformer que utiliza LCU como entrada, visando treinamento conjunto em várias tarefas de geração e edição. Além disso, propomos uma abordagem eficiente de coleta de dados para lidar com a ausência de dados de treinamento disponíveis. Isso envolve a aquisição de imagens em pares com pipelines baseados em síntese ou clusterização e fornecimento desses pares com instruções textuais precisas, aproveitando um modelo de linguagem grande multimodal ajustado. Para avaliar abrangentemente o desempenho de nosso modelo, estabelecemos um benchmark de dados de pares anotados manualmente em uma variedade de tarefas de geração visual. Os extensos resultados experimentais demonstram a superioridade de nosso modelo nos campos de geração visual. Graças às capacidades tudo-em-um de nosso modelo, podemos facilmente construir um sistema de chat multimodal que responde a qualquer solicitação interativa de criação de imagem usando um único modelo como backend, evitando o complicado pipeline normalmente empregado em agentes visuais. O código e os modelos estarão disponíveis na página do projeto: https://ali-vilab.github.io/ace-page/.
English
Diffusion models have emerged as a powerful generative technology and have
been found to be applicable in various scenarios. Most existing foundational
diffusion models are primarily designed for text-guided visual generation and
do not support multi-modal conditions, which are essential for many visual
editing tasks. This limitation prevents these foundational diffusion models
from serving as a unified model in the field of visual generation, like GPT-4
in the natural language processing field. In this work, we propose ACE, an
All-round Creator and Editor, which achieves comparable performance compared to
those expert models in a wide range of visual generation tasks. To achieve this
goal, we first introduce a unified condition format termed Long-context
Condition Unit (LCU), and propose a novel Transformer-based diffusion model
that uses LCU as input, aiming for joint training across various generation and
editing tasks. Furthermore, we propose an efficient data collection approach to
address the issue of the absence of available training data. It involves
acquiring pairwise images with synthesis-based or clustering-based pipelines
and supplying these pairs with accurate textual instructions by leveraging a
fine-tuned multi-modal large language model. To comprehensively evaluate the
performance of our model, we establish a benchmark of manually annotated pairs
data across a variety of visual generation tasks. The extensive experimental
results demonstrate the superiority of our model in visual generation fields.
Thanks to the all-in-one capabilities of our model, we can easily build a
multi-modal chat system that responds to any interactive request for image
creation using a single model to serve as the backend, avoiding the cumbersome
pipeline typically employed in visual agents. Code and models will be available
on the project page: https://ali-vilab.github.io/ace-page/.Summary
AI-Generated Summary