ChatPaper.aiChatPaper

ACE: Creatore e Editore Polivalente che Segue Istruzioni tramite Diffusione Transformer

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

September 30, 2024
Autori: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou
cs.AI

Abstract

I modelli di diffusione sono emersi come una potente tecnologia generativa e si sono dimostrati applicabili in vari scenari. La maggior parte dei modelli di diffusione fondamentali esistenti è principalmente progettata per la generazione visuale guidata dal testo e non supporta condizioni multimodali, che sono essenziali per molte attività di editing visuale. Questa limitazione impedisce a questi modelli di diffusione fondamentali di fungere da modello unificato nel campo della generazione visuale, come GPT-4 nel campo dell'elaborazione del linguaggio naturale. In questo lavoro, proponiamo ACE, un Creatore e Editore All-round, che raggiunge prestazioni comparabili rispetto a quei modelli esperti in una vasta gamma di compiti di generazione visuale. Per raggiungere questo obiettivo, introduciamo innanzitutto un formato di condizione unificato denominato Unità di Condizione a Lungo Contesto (LCU) e proponiamo un nuovo modello di diffusione basato su Transformer che utilizza LCU come input, mirando alla formazione congiunta attraverso vari compiti di generazione e editing. Inoltre, proponiamo un approccio efficiente alla raccolta dati per affrontare il problema dell'assenza di dati di addestramento disponibili. Coinvolge l'acquisizione di immagini a coppie con pipeline basate sulla sintesi o sul clustering e la fornitura di queste coppie con istruzioni testuali accurate sfruttando un modello di linguaggio multimodale di grandi dimensioni sintonizzato. Per valutare in modo esaustivo le prestazioni del nostro modello, istituiamo un benchmark di dati di coppie annotate manualmente su una varietà di compiti di generazione visuale. I risultati sperimentali estensivi dimostrano la superiorità del nostro modello nei campi della generazione visuale. Grazie alle capacità all-in-one del nostro modello, possiamo facilmente costruire un sistema di chat multimodale che risponde a qualsiasi richiesta interattiva di creazione di immagini utilizzando un singolo modello per fungere da backend, evitando la complicata pipeline tipicamente impiegata negli agenti visivi. Il codice e i modelli saranno disponibili sulla pagina del progetto: https://ali-vilab.github.io/ace-page/.
English
Diffusion models have emerged as a powerful generative technology and have been found to be applicable in various scenarios. Most existing foundational diffusion models are primarily designed for text-guided visual generation and do not support multi-modal conditions, which are essential for many visual editing tasks. This limitation prevents these foundational diffusion models from serving as a unified model in the field of visual generation, like GPT-4 in the natural language processing field. In this work, we propose ACE, an All-round Creator and Editor, which achieves comparable performance compared to those expert models in a wide range of visual generation tasks. To achieve this goal, we first introduce a unified condition format termed Long-context Condition Unit (LCU), and propose a novel Transformer-based diffusion model that uses LCU as input, aiming for joint training across various generation and editing tasks. Furthermore, we propose an efficient data collection approach to address the issue of the absence of available training data. It involves acquiring pairwise images with synthesis-based or clustering-based pipelines and supplying these pairs with accurate textual instructions by leveraging a fine-tuned multi-modal large language model. To comprehensively evaluate the performance of our model, we establish a benchmark of manually annotated pairs data across a variety of visual generation tasks. The extensive experimental results demonstrate the superiority of our model in visual generation fields. Thanks to the all-in-one capabilities of our model, we can easily build a multi-modal chat system that responds to any interactive request for image creation using a single model to serve as the backend, avoiding the cumbersome pipeline typically employed in visual agents. Code and models will be available on the project page: https://ali-vilab.github.io/ace-page/.
PDF122November 13, 2024