ChatPaper.aiChatPaper

MakeAnything: マルチドメイン手続きシーケンス生成のための拡散トランスフォーマーの活用

MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation

February 3, 2025
著者: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI

要旨

人間の知能の特徴の1つは、構造化された多段階プロセスを通じて複雑なアーティファクトを作成する能力です。AIによる手順チュートリアルの生成は、長年の課題であり、3つの主要な障害に直面しています:(1)マルチタスク手順データセットの希少性、(2)ステップ間の論理的な連続性と視覚的な一貫性の維持、および(3)複数のドメインにわたる一般化。これらの課題に対処するために、私たちは21のタスクをカバーし、24,000以上の手順シーケンスを持つマルチドメインデータセットを提案します。この基盤を活用して、私たちはDiffusion Transformer(DIT)に基づくMakeAnythingというフレームワークを導入し、DITのコンテキスト内能力を活性化するためのファインチューニングを活用して一貫した手順シーケンスを生成します。画像生成のための非対称低ランク適応(LoRA)を導入し、エンコーダーパラメーターを凍結しながらデコーダーレイヤーを適応的に調整することで、一般化能力とタスク固有のパフォーマンスをバランスさせます。さらに、ReCraftモデルは、時空的一貫性の制約を介して画像からプロセス生成を可能にし、静止画像を妥当な作成シーケンスに分解します。包括的な実験により、MakeAnythingが既存の手法を上回り、手順生成タスクの新たなパフォーマンス基準を設定していることが示されました。
English
A hallmark of human intelligence is the ability to create complex artifacts through structured multi-step processes. Generating procedural tutorials with AI is a longstanding but challenging goal, facing three key obstacles: (1) scarcity of multi-task procedural datasets, (2) maintaining logical continuity and visual consistency between steps, and (3) generalizing across multiple domains. To address these challenges, we propose a multi-domain dataset covering 21 tasks with over 24,000 procedural sequences. Building upon this foundation, we introduce MakeAnything, a framework based on the diffusion transformer (DIT), which leverages fine-tuning to activate the in-context capabilities of DIT for generating consistent procedural sequences. We introduce asymmetric low-rank adaptation (LoRA) for image generation, which balances generalization capabilities and task-specific performance by freezing encoder parameters while adaptively tuning decoder layers. Additionally, our ReCraft model enables image-to-process generation through spatiotemporal consistency constraints, allowing static images to be decomposed into plausible creation sequences. Extensive experiments demonstrate that MakeAnything surpasses existing methods, setting new performance benchmarks for procedural generation tasks.

Summary

AI-Generated Summary

PDF202February 5, 2025