MakeAnything: Aprovechando los Transformadores de Difusión para la Generación de Secuencias Procedimentales en Múltiples Dominios
MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation
February 3, 2025
Autores: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI
Resumen
Una característica distintiva de la inteligencia humana es la capacidad de crear artefactos complejos a través de procesos estructurados de múltiples pasos. Generar tutoriales procedimentales con IA es un objetivo de larga data pero desafiante, enfrentando tres obstáculos clave: (1) escasez de conjuntos de datos procedimentales de múltiples tareas, (2) mantener la continuidad lógica y la consistencia visual entre pasos, y (3) generalizar a través de múltiples dominios. Para abordar estos desafíos, proponemos un conjunto de datos multi-dominio que cubre 21 tareas con más de 24,000 secuencias procedimentales. Sobre esta base, presentamos MakeAnything, un marco basado en el transformador de difusión (DIT), que aprovecha el ajuste fino para activar las capacidades en contexto de DIT para generar secuencias procedimentales consistentes. Introducimos la adaptación asimétrica de bajo rango (LoRA) para la generación de imágenes, que equilibra las capacidades de generalización y el rendimiento específico de la tarea al congelar los parámetros del codificador mientras ajusta de forma adaptativa las capas del decodificador. Además, nuestro modelo ReCraft permite la generación de imágenes a procesos a través de restricciones de consistencia espacio-temporal, permitiendo descomponer imágenes estáticas en secuencias de creación plausibles. Experimentos extensos demuestran que MakeAnything supera a los métodos existentes, estableciendo nuevos puntos de referencia de rendimiento para tareas de generación procedimental.
English
A hallmark of human intelligence is the ability to create complex artifacts
through structured multi-step processes. Generating procedural tutorials with
AI is a longstanding but challenging goal, facing three key obstacles: (1)
scarcity of multi-task procedural datasets, (2) maintaining logical continuity
and visual consistency between steps, and (3) generalizing across multiple
domains. To address these challenges, we propose a multi-domain dataset
covering 21 tasks with over 24,000 procedural sequences. Building upon this
foundation, we introduce MakeAnything, a framework based on the diffusion
transformer (DIT), which leverages fine-tuning to activate the in-context
capabilities of DIT for generating consistent procedural sequences. We
introduce asymmetric low-rank adaptation (LoRA) for image generation, which
balances generalization capabilities and task-specific performance by freezing
encoder parameters while adaptively tuning decoder layers. Additionally, our
ReCraft model enables image-to-process generation through spatiotemporal
consistency constraints, allowing static images to be decomposed into plausible
creation sequences. Extensive experiments demonstrate that MakeAnything
surpasses existing methods, setting new performance benchmarks for procedural
generation tasks.Summary
AI-Generated Summary