ChatPaper.aiChatPaper

MakeAnything: Aproveitando os Transformadores de Difusão para Geração de Sequências Procedimentais em Múltiplos Domínios

MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation

February 3, 2025
Autores: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI

Resumo

Uma característica da inteligência humana é a capacidade de criar artefatos complexos por meio de processos estruturados de vários passos. Gerar tutoriais procedimentais com IA é um objetivo antigo, porém desafiador, enfrentando três obstáculos principais: (1) escassez de conjuntos de dados procedimentais multi-tarefa, (2) manutenção da continuidade lógica e consistência visual entre os passos e (3) generalização em múltiplos domínios. Para lidar com esses desafios, propomos um conjunto de dados multi-domínio que abrange 21 tarefas com mais de 24.000 sequências procedimentais. Construindo sobre essa base, introduzimos o MakeAnything, um framework baseado no transformer de difusão (DIT), que aproveita o ajuste fino para ativar as capacidades contextuais do DIT na geração de sequências procedimentais consistentes. Apresentamos a adaptação assimétrica de baixa ordem (LoRA) para geração de imagens, que equilibra as capacidades de generalização e o desempenho específico da tarefa congelando os parâmetros do codificador enquanto ajusta adaptativamente as camadas do decodificador. Além disso, nosso modelo ReCraft permite a geração de imagem para processo por meio de restrições de consistência espaço-temporal, permitindo que imagens estáticas sejam decompostas em sequências de criação plausíveis. Experimentos extensivos demonstram que o MakeAnything supera os métodos existentes, estabelecendo novos benchmarks de desempenho para tarefas de geração procedimental.
English
A hallmark of human intelligence is the ability to create complex artifacts through structured multi-step processes. Generating procedural tutorials with AI is a longstanding but challenging goal, facing three key obstacles: (1) scarcity of multi-task procedural datasets, (2) maintaining logical continuity and visual consistency between steps, and (3) generalizing across multiple domains. To address these challenges, we propose a multi-domain dataset covering 21 tasks with over 24,000 procedural sequences. Building upon this foundation, we introduce MakeAnything, a framework based on the diffusion transformer (DIT), which leverages fine-tuning to activate the in-context capabilities of DIT for generating consistent procedural sequences. We introduce asymmetric low-rank adaptation (LoRA) for image generation, which balances generalization capabilities and task-specific performance by freezing encoder parameters while adaptively tuning decoder layers. Additionally, our ReCraft model enables image-to-process generation through spatiotemporal consistency constraints, allowing static images to be decomposed into plausible creation sequences. Extensive experiments demonstrate that MakeAnything surpasses existing methods, setting new performance benchmarks for procedural generation tasks.

Summary

AI-Generated Summary

PDF202February 5, 2025