ChatPaper.aiChatPaper

ACE: Allround-Schöpfer und Editor zur Befolgung von Anweisungen über Diffusionstransformer

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

September 30, 2024
Autoren: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou
cs.AI

Zusammenfassung

Diffusionsmodelle haben sich als leistungsstarke generative Technologie etabliert und sind in verschiedenen Szenarien anwendbar. Die meisten bestehenden grundlegenden Diffusionsmodelle sind hauptsächlich für textgesteuerte visuelle Generierung konzipiert und unterstützen keine multimodalen Bedingungen, die für viele visuelle Bearbeitungsaufgaben unerlässlich sind. Diese Einschränkung verhindert, dass diese grundlegenden Diffusionsmodelle als einheitliches Modell im Bereich der visuellen Generierung dienen, wie GPT-4 im Bereich der natürlichen Sprachverarbeitung. In dieser Arbeit schlagen wir ACE vor, einen Allround-Ersteller und -Editor, der vergleichbare Leistungen in einer Vielzahl von visuellen Generierungsaufgaben im Vergleich zu diesen Expertenmodellen erzielt. Um dieses Ziel zu erreichen, führen wir zunächst ein einheitliches Bedingungsformat namens Long-context Condition Unit (LCU) ein und schlagen ein neuartiges auf Transformer basierendes Diffusionsmodell vor, das LCU als Eingabe verwendet und auf ein gemeinsames Training über verschiedene Generierungs- und Bearbeitungsaufgaben abzielt. Darüber hinaus schlagen wir einen effizienten Ansatz zur Datensammlung vor, um das Problem des Fehlens verfügbarer Trainingsdaten zu lösen. Dies beinhaltet den Erwerb von Bildpaaren mit synthesebasierten oder clusteringbasierten Pipelines und die Bereitstellung dieser Paare mit genauen textuellen Anweisungen durch Nutzung eines feinabgestimmten multimodalen großen Sprachmodells. Zur umfassenden Bewertung der Leistung unseres Modells etablieren wir einen Benchmark von manuell annotierten Paardaten über eine Vielzahl von visuellen Generierungsaufgaben. Die umfangreichen experimentellen Ergebnisse zeigen die Überlegenheit unseres Modells in den Bereichen visuelle Generierung. Dank der All-in-One-Fähigkeiten unseres Modells können wir leicht ein multimodales Chat-System aufbauen, das auf jede interaktive Anfrage zur Bildgenerierung reagiert, indem ein einziges Modell als Backend dient, was die umständliche Pipeline vermeidet, die typischerweise bei visuellen Agenten eingesetzt wird. Code und Modelle werden auf der Projektseite verfügbar sein: https://ali-vilab.github.io/ace-page/.
English
Diffusion models have emerged as a powerful generative technology and have been found to be applicable in various scenarios. Most existing foundational diffusion models are primarily designed for text-guided visual generation and do not support multi-modal conditions, which are essential for many visual editing tasks. This limitation prevents these foundational diffusion models from serving as a unified model in the field of visual generation, like GPT-4 in the natural language processing field. In this work, we propose ACE, an All-round Creator and Editor, which achieves comparable performance compared to those expert models in a wide range of visual generation tasks. To achieve this goal, we first introduce a unified condition format termed Long-context Condition Unit (LCU), and propose a novel Transformer-based diffusion model that uses LCU as input, aiming for joint training across various generation and editing tasks. Furthermore, we propose an efficient data collection approach to address the issue of the absence of available training data. It involves acquiring pairwise images with synthesis-based or clustering-based pipelines and supplying these pairs with accurate textual instructions by leveraging a fine-tuned multi-modal large language model. To comprehensively evaluate the performance of our model, we establish a benchmark of manually annotated pairs data across a variety of visual generation tasks. The extensive experimental results demonstrate the superiority of our model in visual generation fields. Thanks to the all-in-one capabilities of our model, we can easily build a multi-modal chat system that responds to any interactive request for image creation using a single model to serve as the backend, avoiding the cumbersome pipeline typically employed in visual agents. Code and models will be available on the project page: https://ali-vilab.github.io/ace-page/.

Summary

AI-Generated Summary

PDF122November 13, 2024