MakeAnything : Exploiter les transformateurs de diffusion pour la génération de séquences procédurales multi-domaines
MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation
February 3, 2025
Auteurs: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI
Résumé
Une caractéristique de l'intelligence humaine est la capacité de créer des artefacts complexes à travers des processus structurés en plusieurs étapes. Générer des tutoriels procéduraux avec l'IA est un objectif de longue date mais difficile, confronté à trois obstacles majeurs : (1) la rareté des ensembles de données procéduraux multi-tâches, (2) maintenir la continuité logique et la cohérence visuelle entre les étapes, et (3) généraliser à travers plusieurs domaines. Pour relever ces défis, nous proposons un ensemble de données multi-domaines couvrant 21 tâches avec plus de 24 000 séquences procédurales. En nous appuyant sur cette base, nous introduisons MakeAnything, un cadre basé sur le transformateur de diffusion (DIT), qui exploite le fine-tuning pour activer les capacités en contexte de DIT pour générer des séquences procédurales cohérentes. Nous introduisons l'adaptation asymétrique à faible rang (LoRA) pour la génération d'images, qui équilibre les capacités de généralisation et les performances spécifiques à la tâche en gelant les paramètres de l'encodeur tout en adaptant de manière adaptative les couches du décodeur. De plus, notre modèle ReCraft permet la génération d'images vers le processus à travers des contraintes de cohérence spatiotemporelle, permettant aux images statiques d'être décomposées en séquences de création plausibles. Des expériences approfondies démontrent que MakeAnything surpasse les méthodes existantes, établissant de nouveaux benchmarks de performance pour les tâches de génération procédurale.
English
A hallmark of human intelligence is the ability to create complex artifacts
through structured multi-step processes. Generating procedural tutorials with
AI is a longstanding but challenging goal, facing three key obstacles: (1)
scarcity of multi-task procedural datasets, (2) maintaining logical continuity
and visual consistency between steps, and (3) generalizing across multiple
domains. To address these challenges, we propose a multi-domain dataset
covering 21 tasks with over 24,000 procedural sequences. Building upon this
foundation, we introduce MakeAnything, a framework based on the diffusion
transformer (DIT), which leverages fine-tuning to activate the in-context
capabilities of DIT for generating consistent procedural sequences. We
introduce asymmetric low-rank adaptation (LoRA) for image generation, which
balances generalization capabilities and task-specific performance by freezing
encoder parameters while adaptively tuning decoder layers. Additionally, our
ReCraft model enables image-to-process generation through spatiotemporal
consistency constraints, allowing static images to be decomposed into plausible
creation sequences. Extensive experiments demonstrate that MakeAnything
surpasses existing methods, setting new performance benchmarks for procedural
generation tasks.Summary
AI-Generated Summary