MakeAnything: Die Nutzung von Diffusionstransformatoren für die Generierung von prozeduralen Sequenzen in mehreren Domänen

papers.abstract

Ein Kennzeichen menschlicher Intelligenz ist die Fähigkeit, komplexe Artefakte durch strukturierte, mehrstufige Prozesse zu erstellen. Die Generierung von prozeduralen Tutorials mit KI ist ein langjähriges, aber herausforderndes Ziel, das drei Hauptprobleme aufweist: (1) Mangel an prozeduralen Datensätzen für Mehrfachaufgaben, (2) Aufrechterhaltung logischer Kontinuität und visueller Konsistenz zwischen den Schritten und (3) Generalisierung über mehrere Domänen hinweg. Um diesen Herausforderungen zu begegnen, schlagen wir einen multidomänen Datensatz vor, der 21 Aufgaben mit über 24.000 prozeduralen Sequenzen abdeckt. Aufbauend auf diesem Fundament stellen wir MakeAnything vor, ein Framework basierend auf dem Diffusionstransformer (DIT), das Feinabstimmung nutzt, um die In-Context-Fähigkeiten des DIT zur Generierung konsistenter prozeduraler Sequenzen zu aktivieren. Wir führen die asymmetrische Low-Rank-Anpassung (LoRA) für die Bildgenerierung ein, die die Generalisierungsfähigkeiten und die aufgabenspezifische Leistung durch das Einfrieren der Encoder-Parameter und das adaptive Feinabstimmen der Decoder-Schichten ausbalanciert. Darüber hinaus ermöglicht unser ReCraft-Modell die Bild-zu-Prozess-Generierung durch raumzeitliche Konsistenzbeschränkungen, die statische Bilder in plausible Erstellungssequenzen zerlegen. Umfangreiche Experimente zeigen, dass MakeAnything bestehende Methoden übertrifft und neue Leistungsmaßstäbe für prozedurale Generierungsaufgaben setzt.

English

A hallmark of human intelligence is the ability to create complex artifacts through structured multi-step processes. Generating procedural tutorials with AI is a longstanding but challenging goal, facing three key obstacles: (1) scarcity of multi-task procedural datasets, (2) maintaining logical continuity and visual consistency between steps, and (3) generalizing across multiple domains. To address these challenges, we propose a multi-domain dataset covering 21 tasks with over 24,000 procedural sequences. Building upon this foundation, we introduce MakeAnything, a framework based on the diffusion transformer (DIT), which leverages fine-tuning to activate the in-context capabilities of DIT for generating consistent procedural sequences. We introduce asymmetric low-rank adaptation (LoRA) for image generation, which balances generalization capabilities and task-specific performance by freezing encoder parameters while adaptively tuning decoder layers. Additionally, our ReCraft model enables image-to-process generation through spatiotemporal consistency constraints, allowing static images to be decomposed into plausible creation sequences. Extensive experiments demonstrate that MakeAnything surpasses existing methods, setting new performance benchmarks for procedural generation tasks.

MakeAnything: Die Nutzung von Diffusionstransformatoren für die Generierung von prozeduralen Sequenzen in mehreren Domänen

MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation

papers.abstract

Support