MakeAnything: Het benutten van Diffusion Transformers voor het genereren van procedures in meerdere domeinen.
MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation
February 3, 2025
Auteurs: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI
Samenvatting
Een kenmerk van menselijke intelligentie is het vermogen om complexe artefacten te creëren via gestructureerde, meerstapsprocessen. Het genereren van procedurele tutorials met AI is een langdurig maar uitdagend doel, met drie belangrijke obstakels: (1) schaarste aan procedurele datasets voor meerdere taken, (2) handhaven van logische continuïteit en visuele consistentie tussen stappen, en (3) generalisatie over meerdere domeinen. Om deze uitdagingen aan te pakken, stellen we een multi-domeindataset voor die 21 taken bestrijkt met meer dan 24.000 procedurele sequenties. Voortbouwend op deze basis introduceren we MakeAnything, een raamwerk gebaseerd op de diffusietransformer (DIT), dat fijnafstemming benut om de in-context mogelijkheden van DIT te activeren voor het genereren van consistente procedurele sequenties. We introduceren asymmetrische lage-rang aanpassing (LoRA) voor beeldgeneratie, dat generalisatiecapaciteiten en taakspecifieke prestaties in balans brengt door encoderparameters te bevriezen terwijl decoderlagen adaptief worden afgestemd. Bovendien maakt ons ReCraft-model beeld-naar-procesgeneratie mogelijk via ruimtelijk-temporele consistentiebeperkingen, waardoor statische beelden kunnen worden opgesplitst in plausibele creatiesequenties. Uitgebreide experimenten tonen aan dat MakeAnything bestaande methoden overtreft en nieuwe prestatienormen stelt voor procedurele generatietaken.
English
A hallmark of human intelligence is the ability to create complex artifacts
through structured multi-step processes. Generating procedural tutorials with
AI is a longstanding but challenging goal, facing three key obstacles: (1)
scarcity of multi-task procedural datasets, (2) maintaining logical continuity
and visual consistency between steps, and (3) generalizing across multiple
domains. To address these challenges, we propose a multi-domain dataset
covering 21 tasks with over 24,000 procedural sequences. Building upon this
foundation, we introduce MakeAnything, a framework based on the diffusion
transformer (DIT), which leverages fine-tuning to activate the in-context
capabilities of DIT for generating consistent procedural sequences. We
introduce asymmetric low-rank adaptation (LoRA) for image generation, which
balances generalization capabilities and task-specific performance by freezing
encoder parameters while adaptively tuning decoder layers. Additionally, our
ReCraft model enables image-to-process generation through spatiotemporal
consistency constraints, allowing static images to be decomposed into plausible
creation sequences. Extensive experiments demonstrate that MakeAnything
surpasses existing methods, setting new performance benchmarks for procedural
generation tasks.Summary
AI-Generated Summary