MakeAnything: Die Nutzung von Diffusionstransformatoren für die Generierung von prozeduralen Sequenzen in mehreren Domänen
MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation
February 3, 2025
Autoren: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI
Zusammenfassung
Ein Kennzeichen menschlicher Intelligenz ist die Fähigkeit, komplexe Artefakte durch strukturierte, mehrstufige Prozesse zu erstellen. Die Generierung von prozeduralen Tutorials mit KI ist ein langjähriges, aber herausforderndes Ziel, das drei Hauptprobleme aufweist: (1) Mangel an prozeduralen Datensätzen für Mehrfachaufgaben, (2) Aufrechterhaltung logischer Kontinuität und visueller Konsistenz zwischen den Schritten und (3) Generalisierung über mehrere Domänen hinweg. Um diesen Herausforderungen zu begegnen, schlagen wir einen multidomänen Datensatz vor, der 21 Aufgaben mit über 24.000 prozeduralen Sequenzen abdeckt. Aufbauend auf diesem Fundament stellen wir MakeAnything vor, ein Framework basierend auf dem Diffusionstransformer (DIT), das Feinabstimmung nutzt, um die In-Context-Fähigkeiten des DIT zur Generierung konsistenter prozeduraler Sequenzen zu aktivieren. Wir führen die asymmetrische Low-Rank-Anpassung (LoRA) für die Bildgenerierung ein, die die Generalisierungsfähigkeiten und die aufgabenspezifische Leistung durch das Einfrieren der Encoder-Parameter und das adaptive Feinabstimmen der Decoder-Schichten ausbalanciert. Darüber hinaus ermöglicht unser ReCraft-Modell die Bild-zu-Prozess-Generierung durch raumzeitliche Konsistenzbeschränkungen, die statische Bilder in plausible Erstellungssequenzen zerlegen. Umfangreiche Experimente zeigen, dass MakeAnything bestehende Methoden übertrifft und neue Leistungsmaßstäbe für prozedurale Generierungsaufgaben setzt.
English
A hallmark of human intelligence is the ability to create complex artifacts
through structured multi-step processes. Generating procedural tutorials with
AI is a longstanding but challenging goal, facing three key obstacles: (1)
scarcity of multi-task procedural datasets, (2) maintaining logical continuity
and visual consistency between steps, and (3) generalizing across multiple
domains. To address these challenges, we propose a multi-domain dataset
covering 21 tasks with over 24,000 procedural sequences. Building upon this
foundation, we introduce MakeAnything, a framework based on the diffusion
transformer (DIT), which leverages fine-tuning to activate the in-context
capabilities of DIT for generating consistent procedural sequences. We
introduce asymmetric low-rank adaptation (LoRA) for image generation, which
balances generalization capabilities and task-specific performance by freezing
encoder parameters while adaptively tuning decoder layers. Additionally, our
ReCraft model enables image-to-process generation through spatiotemporal
consistency constraints, allowing static images to be decomposed into plausible
creation sequences. Extensive experiments demonstrate that MakeAnything
surpasses existing methods, setting new performance benchmarks for procedural
generation tasks.Summary
AI-Generated Summary