MakeAnything: Применение Диффузионных Трансформеров для Генерации Процедурных Последовательностей в Многих Областях
MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation
February 3, 2025
Авторы: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI
Аннотация
Одним из признаков человеческого интеллекта является способность создавать сложные артефакты через структурированные многоэтапные процессы. Генерация процедурных руководств с использованием искусственного интеллекта является давней, но сложной задачей, сталкивающейся с тремя основными препятствиями: (1) недостаток многофункциональных процедурных наборов данных, (2) поддержание логической последовательности и визуальной согласованности между этапами и (3) обобщение на несколько областей. Для решения этих проблем мы предлагаем многообластной набор данных, охватывающий 21 задачу с более чем 24 000 процедурными последовательностями. На основе этого фундамента мы представляем MakeAnything, фреймворк на основе диффузионного трансформера (DIT), который использует тонкую настройку для активации возможностей DIT в контексте генерации последовательностей. Мы представляем асимметричную низкоранговую адаптацию (LoRA) для генерации изображений, которая балансирует возможности обобщения и задачно-специфическую производительность путем замораживания параметров кодировщика при адаптивной настройке слоев декодера. Кроме того, наша модель ReCraft позволяет генерировать процессы изображения через ограничения пространственно-временной согласованности, позволяя декомпозировать статические изображения на правдоподобные последовательности создания. Обширные эксперименты показывают, что MakeAnything превосходит существующие методы, устанавливая новые показатели производительности для задач генерации процедур.
English
A hallmark of human intelligence is the ability to create complex artifacts
through structured multi-step processes. Generating procedural tutorials with
AI is a longstanding but challenging goal, facing three key obstacles: (1)
scarcity of multi-task procedural datasets, (2) maintaining logical continuity
and visual consistency between steps, and (3) generalizing across multiple
domains. To address these challenges, we propose a multi-domain dataset
covering 21 tasks with over 24,000 procedural sequences. Building upon this
foundation, we introduce MakeAnything, a framework based on the diffusion
transformer (DIT), which leverages fine-tuning to activate the in-context
capabilities of DIT for generating consistent procedural sequences. We
introduce asymmetric low-rank adaptation (LoRA) for image generation, which
balances generalization capabilities and task-specific performance by freezing
encoder parameters while adaptively tuning decoder layers. Additionally, our
ReCraft model enables image-to-process generation through spatiotemporal
consistency constraints, allowing static images to be decomposed into plausible
creation sequences. Extensive experiments demonstrate that MakeAnything
surpasses existing methods, setting new performance benchmarks for procedural
generation tasks.Summary
AI-Generated Summary