ChatPaper.aiChatPaper

FullDiT : Modèle génératif vidéo multitâche fondé sur une attention complète

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

March 25, 2025
Auteurs: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI

Résumé

Les modèles génératifs de base actuels pour la vidéo se concentrent principalement sur les tâches de texte-à-vidéo, offrant un contrôle limité pour la création de contenu vidéo granulaire. Bien que les approches basées sur des adaptateurs (par exemple, ControlNet) permettent des contrôles supplémentaires avec un ajustement fin minimal, elles rencontrent des défis lors de l'intégration de multiples conditions, notamment : des conflits de branches entre des adaptateurs entraînés indépendamment, une redondance des paramètres entraînant une augmentation des coûts de calcul, et des performances sous-optimales par rapport à un ajustement fin complet. Pour relever ces défis, nous introduisons FullDiT, un modèle de base unifié pour la génération de vidéo qui intègre de manière transparente plusieurs conditions via des mécanismes d'attention complète unifiés. En fusionnant les conditions multi-tâches dans une représentation de séquence unifiée et en exploitant la capacité d'apprentissage à long contexte de l'auto-attention complète pour capturer la dynamique des conditions, FullDiT réduit la surcharge des paramètres, évite les conflits de conditions, et montre une scalabilité et une capacité émergente. Nous introduisons également FullBench pour l'évaluation de la génération de vidéo multi-tâches. Les expériences démontrent que FullDiT atteint des résultats de pointe, mettant en évidence l'efficacité de l'attention complète dans la génération de vidéo multi-tâches complexe.
English
Current video generative foundation models primarily focus on text-to-video tasks, providing limited control for fine-grained video content creation. Although adapter-based approaches (e.g., ControlNet) enable additional controls with minimal fine-tuning, they encounter challenges when integrating multiple conditions, including: branch conflicts between independently trained adapters, parameter redundancy leading to increased computational cost, and suboptimal performance compared to full fine-tuning. To address these challenges, we introduce FullDiT, a unified foundation model for video generation that seamlessly integrates multiple conditions via unified full-attention mechanisms. By fusing multi-task conditions into a unified sequence representation and leveraging the long-context learning ability of full self-attention to capture condition dynamics, FullDiT reduces parameter overhead, avoids conditions conflict, and shows scalability and emergent ability. We further introduce FullBench for multi-task video generation evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art results, highlighting the efficacy of full-attention in complex multi-task video generation.

Summary

AI-Generated Summary

PDF82March 26, 2025