FullDiT: Многофункциональная генеративная базовая модель для видео с полным вниманием
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
March 25, 2025
Авторы: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI
Аннотация
Современные базовые модели для генерации видео в основном сосредоточены на задачах преобразования текста в видео, предоставляя ограниченный контроль для создания детализированного видеоконтента. Хотя адаптерные подходы (например, ControlNet) позволяют добавлять дополнительные элементы управления с минимальной донастройкой, они сталкиваются с трудностями при интеграции нескольких условий, включая: конфликты ветвей между независимо обученными адаптерами, избыточность параметров, ведущую к увеличению вычислительных затрат, и неоптимальную производительность по сравнению с полной донастройкой. Для решения этих проблем мы представляем FullDiT — унифицированную базовую модель для генерации видео, которая бесшовно интегрирует несколько условий с помощью унифицированных механизмов полного внимания. Объединяя условия для многозадачности в единое последовательностное представление и используя способность полного самовнимания к обучению на длинных контекстах для учета динамики условий, FullDiT снижает избыточность параметров, избегает конфликтов условий и демонстрирует масштабируемость и эмерджентные способности. Мы также представляем FullBench для оценки многозадачной генерации видео. Эксперименты показывают, что FullDiT достигает наилучших результатов, подчеркивая эффективность полного внимания в сложной многозадачной генерации видео.
English
Current video generative foundation models primarily focus on text-to-video
tasks, providing limited control for fine-grained video content creation.
Although adapter-based approaches (e.g., ControlNet) enable additional controls
with minimal fine-tuning, they encounter challenges when integrating multiple
conditions, including: branch conflicts between independently trained adapters,
parameter redundancy leading to increased computational cost, and suboptimal
performance compared to full fine-tuning. To address these challenges, we
introduce FullDiT, a unified foundation model for video generation that
seamlessly integrates multiple conditions via unified full-attention
mechanisms. By fusing multi-task conditions into a unified sequence
representation and leveraging the long-context learning ability of full
self-attention to capture condition dynamics, FullDiT reduces parameter
overhead, avoids conditions conflict, and shows scalability and emergent
ability. We further introduce FullBench for multi-task video generation
evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art
results, highlighting the efficacy of full-attention in complex multi-task
video generation.Summary
AI-Generated Summary