ChatPaper.aiChatPaper

ACE : Créateur et Éditeur Tout-En-Un Suivant les Instructions via Diffusion Transformer

ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer

September 30, 2024
Auteurs: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou
cs.AI

Résumé

Les modèles de diffusion ont émergé comme une technologie générative puissante et se sont révélés applicables dans divers scénarios. La plupart des modèles de diffusion fondamentaux existants sont principalement conçus pour la génération visuelle guidée par le texte et ne prennent pas en charge les conditions multimodales, essentielles pour de nombreuses tâches d'édition visuelle. Cette limitation empêche ces modèles de diffusion fondamentaux de servir de modèle unifié dans le domaine de la génération visuelle, à l'instar du GPT-4 dans le domaine du traitement du langage naturel. Dans ce travail, nous proposons ACE, un Créateur et Éditeur Tout-en-un, qui atteint des performances comparables à celles des modèles experts dans un large éventail de tâches de génération visuelle. Pour atteindre cet objectif, nous introduisons d'abord un format de condition unifié appelé Unité de Condition à Long Contexte (LCU), et proposons un nouveau modèle de diffusion basé sur le Transformer qui utilise LCU en entrée, visant un entraînement conjoint sur diverses tâches de génération et d'édition. De plus, nous proposons une approche efficace de collecte de données pour résoudre le problème de l'absence de données d'entraînement disponibles. Cela implique l'acquisition d'images par paires avec des pipelines basés sur la synthèse ou le regroupement, et la fourniture de ces paires avec des instructions textuelles précises en exploitant un modèle de langage multimodal large affiné. Pour évaluer de manière exhaustive les performances de notre modèle, nous établissons un benchmark de données d'annotations manuelles sur une variété de tâches de génération visuelle. Les résultats expérimentaux approfondis démontrent la supériorité de notre modèle dans les domaines de la génération visuelle. Grâce aux capacités tout-en-un de notre modèle, nous pouvons facilement construire un système de chat multimodal qui répond à toute demande interactive de création d'image en utilisant un seul modèle comme backend, évitant le pipeline fastidieux généralement utilisé dans les agents visuels. Le code et les modèles seront disponibles sur la page du projet : https://ali-vilab.github.io/ace-page/.
English
Diffusion models have emerged as a powerful generative technology and have been found to be applicable in various scenarios. Most existing foundational diffusion models are primarily designed for text-guided visual generation and do not support multi-modal conditions, which are essential for many visual editing tasks. This limitation prevents these foundational diffusion models from serving as a unified model in the field of visual generation, like GPT-4 in the natural language processing field. In this work, we propose ACE, an All-round Creator and Editor, which achieves comparable performance compared to those expert models in a wide range of visual generation tasks. To achieve this goal, we first introduce a unified condition format termed Long-context Condition Unit (LCU), and propose a novel Transformer-based diffusion model that uses LCU as input, aiming for joint training across various generation and editing tasks. Furthermore, we propose an efficient data collection approach to address the issue of the absence of available training data. It involves acquiring pairwise images with synthesis-based or clustering-based pipelines and supplying these pairs with accurate textual instructions by leveraging a fine-tuned multi-modal large language model. To comprehensively evaluate the performance of our model, we establish a benchmark of manually annotated pairs data across a variety of visual generation tasks. The extensive experimental results demonstrate the superiority of our model in visual generation fields. Thanks to the all-in-one capabilities of our model, we can easily build a multi-modal chat system that responds to any interactive request for image creation using a single model to serve as the backend, avoiding the cumbersome pipeline typically employed in visual agents. Code and models will be available on the project page: https://ali-vilab.github.io/ace-page/.

Summary

AI-Generated Summary

PDF122November 13, 2024