ACE: Allesomvattende Maker en Redacteur die Instructies Volgt via Diffusie Transformer
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer
September 30, 2024
Auteurs: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou
cs.AI
Samenvatting
Diffusiemodellen zijn naar voren gekomen als een krachtige generatieve technologie en blijken toepasbaar te zijn in verschillende scenario's. De meeste bestaande fundamentele diffusiemodellen zijn primair ontworpen voor tekstgestuurde visuele generatie en ondersteunen geen multimodale omstandigheden, die essentieel zijn voor veel visuele bewerkingstaken. Deze beperking voorkomt dat deze fundamentele diffusiemodellen dienen als een verenigd model in het veld van visuele generatie, zoals GPT-4 in het natuurlijke taalverwerkingveld. In dit werk stellen we ACE voor, een All-round Creator and Editor, die vergelijkbare prestaties behaalt in een breed scala van visuele generatietaken in vergelijking met die van expertmodellen. Om dit doel te bereiken, introduceren we eerst een verenigd voorwaardenformaat genaamd Long-context Condition Unit (LCU) en stellen we een nieuw op Transformer gebaseerd diffusiemodel voor dat LCU als invoer gebruikt, met als doel gezamenlijke training over verschillende generatie- en bewerkingstaken. Bovendien stellen we een efficiënte gegevensverzamelingsbenadering voor om het probleem van het ontbreken van beschikbare trainingsgegevens aan te pakken. Dit omvat het verkrijgen van paarafbeeldingen met synthesegebaseerde of clusteringgebaseerde pipelines en het voorzien van deze paren van nauwkeurige tekstuele instructies door gebruik te maken van een fijn afgestemd multimodaal groot taalmodel. Om de prestaties van ons model uitgebreid te evalueren, stellen we een benchmark vast van handmatig geannoteerde paardata over een verscheidenheid aan visuele generatietaken. De uitgebreide experimentele resultaten tonen de superioriteit van ons model in visuele generatievelden aan. Dankzij de alles-in-één mogelijkheden van ons model kunnen we gemakkelijk een multimodaal chatsysteem opzetten dat reageert op elk interactief verzoek voor beeldcreatie met behulp van een enkel model als backend, waardoor het omslachtige proces dat typisch wordt gebruikt in visuele agenten wordt vermeden. De code en modellen zullen beschikbaar zijn op de projectpagina: https://ali-vilab.github.io/ace-page/.
English
Diffusion models have emerged as a powerful generative technology and have
been found to be applicable in various scenarios. Most existing foundational
diffusion models are primarily designed for text-guided visual generation and
do not support multi-modal conditions, which are essential for many visual
editing tasks. This limitation prevents these foundational diffusion models
from serving as a unified model in the field of visual generation, like GPT-4
in the natural language processing field. In this work, we propose ACE, an
All-round Creator and Editor, which achieves comparable performance compared to
those expert models in a wide range of visual generation tasks. To achieve this
goal, we first introduce a unified condition format termed Long-context
Condition Unit (LCU), and propose a novel Transformer-based diffusion model
that uses LCU as input, aiming for joint training across various generation and
editing tasks. Furthermore, we propose an efficient data collection approach to
address the issue of the absence of available training data. It involves
acquiring pairwise images with synthesis-based or clustering-based pipelines
and supplying these pairs with accurate textual instructions by leveraging a
fine-tuned multi-modal large language model. To comprehensively evaluate the
performance of our model, we establish a benchmark of manually annotated pairs
data across a variety of visual generation tasks. The extensive experimental
results demonstrate the superiority of our model in visual generation fields.
Thanks to the all-in-one capabilities of our model, we can easily build a
multi-modal chat system that responds to any interactive request for image
creation using a single model to serve as the backend, avoiding the cumbersome
pipeline typically employed in visual agents. Code and models will be available
on the project page: https://ali-vilab.github.io/ace-page/.Summary
AI-Generated Summary