ACE: Creador y Editor Integral Siguiendo Instrucciones a través de Difusión Transformer
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer
September 30, 2024
Autores: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou
cs.AI
Resumen
Los modelos de difusión han surgido como una tecnología generativa poderosa y se ha encontrado que son aplicables en varios escenarios. La mayoría de los modelos de difusión fundamentales existentes están principalmente diseñados para generación visual guiada por texto y no admiten condiciones multimodales, las cuales son esenciales para muchas tareas de edición visual. Esta limitación impide que estos modelos fundamentales de difusión funcionen como un modelo unificado en el campo de generación visual, como GPT-4 en el campo del procesamiento de lenguaje natural. En este trabajo, proponemos ACE, un Creador y Editor Integral, que logra un rendimiento comparable en comparación con esos modelos expertos en una amplia gama de tareas de generación visual. Para lograr este objetivo, primero introducimos un formato de condición unificada denominado Unidad de Condición de Contexto Largo (LCU), y proponemos un nuevo modelo de difusión basado en Transformer que utiliza LCU como entrada, con el objetivo de entrenamiento conjunto en diversas tareas de generación y edición. Además, proponemos un enfoque eficiente de recopilación de datos para abordar el problema de la falta de datos de entrenamiento disponibles. Involucra la adquisición de imágenes emparejadas con tuberías basadas en síntesis o en agrupamiento y suministrar estos pares con instrucciones textuales precisas aprovechando un modelo de lenguaje grande multimodal ajustado. Para evaluar exhaustivamente el rendimiento de nuestro modelo, establecemos un punto de referencia de datos de pares anotados manualmente en una variedad de tareas de generación visual. Los extensos resultados experimentales demuestran la superioridad de nuestro modelo en campos de generación visual. Gracias a las capacidades todo en uno de nuestro modelo, podemos construir fácilmente un sistema de chat multimodal que responda a cualquier solicitud interactiva de creación de imágenes utilizando un solo modelo como backend, evitando la engorrosa tubería típicamente empleada en agentes visuales. El código y los modelos estarán disponibles en la página del proyecto: https://ali-vilab.github.io/ace-page/.
English
Diffusion models have emerged as a powerful generative technology and have
been found to be applicable in various scenarios. Most existing foundational
diffusion models are primarily designed for text-guided visual generation and
do not support multi-modal conditions, which are essential for many visual
editing tasks. This limitation prevents these foundational diffusion models
from serving as a unified model in the field of visual generation, like GPT-4
in the natural language processing field. In this work, we propose ACE, an
All-round Creator and Editor, which achieves comparable performance compared to
those expert models in a wide range of visual generation tasks. To achieve this
goal, we first introduce a unified condition format termed Long-context
Condition Unit (LCU), and propose a novel Transformer-based diffusion model
that uses LCU as input, aiming for joint training across various generation and
editing tasks. Furthermore, we propose an efficient data collection approach to
address the issue of the absence of available training data. It involves
acquiring pairwise images with synthesis-based or clustering-based pipelines
and supplying these pairs with accurate textual instructions by leveraging a
fine-tuned multi-modal large language model. To comprehensively evaluate the
performance of our model, we establish a benchmark of manually annotated pairs
data across a variety of visual generation tasks. The extensive experimental
results demonstrate the superiority of our model in visual generation fields.
Thanks to the all-in-one capabilities of our model, we can easily build a
multi-modal chat system that responds to any interactive request for image
creation using a single model to serve as the backend, avoiding the cumbersome
pipeline typically employed in visual agents. Code and models will be available
on the project page: https://ali-vilab.github.io/ace-page/.Summary
AI-Generated Summary