ACE: 拡散を介した指示に従うオールラウンドクリエーターおよびエディター、トランスフォーマー
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer
September 30, 2024
著者: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou
cs.AI
要旨
拡散モデルは強力な生成技術として台頭し、さまざまなシナリオで適用可能であることがわかっています。ほとんどの既存の基本的な拡散モデルは、主にテキストによるビジュアル生成を対象として設計されており、多くのビジュアル編集タスクには欠かせないマルチモーダル条件をサポートしていません。この制限により、これらの基本的な拡散モデルは、自然言語処理分野のGPT-4のように、ビジュアル生成分野における統一モデルとしての役割を果たすことができません。本研究では、ACE(All-round Creator and Editor)という、幅広いビジュアル生成タスクにおいて専門モデルと比較可能な性能を達成するモデルを提案します。この目標を達成するために、まず、Long-context Condition Unit(LCU)と呼ばれる統一された条件形式を導入し、LCUを入力とする新しいTransformerベースの拡散モデルを提案します。これにより、さまざまな生成および編集タスクにわたる共同トレーニングを目指します。さらに、利用可能なトレーニングデータの不足問題に対処するために、効率的なデータ収集アプローチを提案します。これには、合成ベースまたはクラスタリングベースのパイプラインを使用してペア画像を取得し、これらのペアに正確なテキスト指示を提供するために、微調整されたマルチモーダル大規模言語モデルを活用します。当社のモデルの性能を包括的に評価するために、さまざまなビジュアル生成タスクにわたる手動で注釈付けされたペアデータのベンチマークを確立します。幅広い実験結果は、当社のモデルのビジュアル生成分野における優位性を示しています。当社のモデルのオールインワンの機能により、ビジュアルエージェントで通常使用される手間のかかるパイプラインを回避し、単一モデルをバックエンドとして使用して画像作成のインタラクティブなリクエストに応答するマルチモーダルチャットシステムを簡単に構築することができます。コードとモデルはプロジェクトページで入手可能です:https://ali-vilab.github.io/ace-page/。
English
Diffusion models have emerged as a powerful generative technology and have
been found to be applicable in various scenarios. Most existing foundational
diffusion models are primarily designed for text-guided visual generation and
do not support multi-modal conditions, which are essential for many visual
editing tasks. This limitation prevents these foundational diffusion models
from serving as a unified model in the field of visual generation, like GPT-4
in the natural language processing field. In this work, we propose ACE, an
All-round Creator and Editor, which achieves comparable performance compared to
those expert models in a wide range of visual generation tasks. To achieve this
goal, we first introduce a unified condition format termed Long-context
Condition Unit (LCU), and propose a novel Transformer-based diffusion model
that uses LCU as input, aiming for joint training across various generation and
editing tasks. Furthermore, we propose an efficient data collection approach to
address the issue of the absence of available training data. It involves
acquiring pairwise images with synthesis-based or clustering-based pipelines
and supplying these pairs with accurate textual instructions by leveraging a
fine-tuned multi-modal large language model. To comprehensively evaluate the
performance of our model, we establish a benchmark of manually annotated pairs
data across a variety of visual generation tasks. The extensive experimental
results demonstrate the superiority of our model in visual generation fields.
Thanks to the all-in-one capabilities of our model, we can easily build a
multi-modal chat system that responds to any interactive request for image
creation using a single model to serve as the backend, avoiding the cumbersome
pipeline typically employed in visual agents. Code and models will be available
on the project page: https://ali-vilab.github.io/ace-page/.Summary
AI-Generated Summary