MakeAnything: Sfruttare i Diffusion Transformers per la Generazione di Sequenze Procedurali Multi-Dominio
MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation
February 3, 2025
Autori: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI
Abstract
Un tratto distintivo dell'intelligenza umana è la capacità di creare artefatti complessi attraverso processi strutturati a più passaggi. Generare tutorial procedurali con l'IA è un obiettivo di lunga data ma impegnativo, che si trova di fronte a tre ostacoli chiave: (1) scarsità di set di dati procedurali multi-task, (2) mantenimento della continuità logica e della coerenza visiva tra i passaggi e (3) generalizzazione attraverso più domini. Per affrontare queste sfide, proponiamo un set di dati multi-dominio che copre 21 compiti con oltre 24.000 sequenze procedurali. Sfruttando questa base, presentiamo MakeAnything, un framework basato sul trasformatore di diffusione (DIT), che sfrutta il fine-tuning per attivare le capacità in contesto di DIT per generare sequenze procedurali coerenti. Introduciamo l'adattamento asimmetrico a basso rango (LoRA) per la generazione di immagini, che bilancia le capacità di generalizzazione e le prestazioni specifiche del compito congelando i parametri dell'encoder mentre regola in modo adattivo gli strati del decoder. Inoltre, il nostro modello ReCraft consente la generazione da immagine a processo attraverso vincoli di coerenza spazio-temporale, consentendo alle immagini statiche di essere decomposte in sequenze di creazione plausibili. Estesi esperimenti dimostrano che MakeAnything supera i metodi esistenti, stabilendo nuovi benchmark di prestazioni per i compiti di generazione procedurale.
English
A hallmark of human intelligence is the ability to create complex artifacts
through structured multi-step processes. Generating procedural tutorials with
AI is a longstanding but challenging goal, facing three key obstacles: (1)
scarcity of multi-task procedural datasets, (2) maintaining logical continuity
and visual consistency between steps, and (3) generalizing across multiple
domains. To address these challenges, we propose a multi-domain dataset
covering 21 tasks with over 24,000 procedural sequences. Building upon this
foundation, we introduce MakeAnything, a framework based on the diffusion
transformer (DIT), which leverages fine-tuning to activate the in-context
capabilities of DIT for generating consistent procedural sequences. We
introduce asymmetric low-rank adaptation (LoRA) for image generation, which
balances generalization capabilities and task-specific performance by freezing
encoder parameters while adaptively tuning decoder layers. Additionally, our
ReCraft model enables image-to-process generation through spatiotemporal
consistency constraints, allowing static images to be decomposed into plausible
creation sequences. Extensive experiments demonstrate that MakeAnything
surpasses existing methods, setting new performance benchmarks for procedural
generation tasks.Summary
AI-Generated Summary