FullDiT : Modèle génératif vidéo multitâche fondé sur une attention complète
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
March 25, 2025
Auteurs: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI
Résumé
Les modèles génératifs de base actuels pour la vidéo se concentrent principalement sur les tâches de texte-à-vidéo, offrant un contrôle limité pour la création de contenu vidéo granulaire. Bien que les approches basées sur des adaptateurs (par exemple, ControlNet) permettent des contrôles supplémentaires avec un ajustement fin minimal, elles rencontrent des défis lors de l'intégration de multiples conditions, notamment : des conflits de branches entre des adaptateurs entraînés indépendamment, une redondance des paramètres entraînant une augmentation des coûts de calcul, et des performances sous-optimales par rapport à un ajustement fin complet. Pour relever ces défis, nous introduisons FullDiT, un modèle de base unifié pour la génération de vidéo qui intègre de manière transparente plusieurs conditions via des mécanismes d'attention complète unifiés. En fusionnant les conditions multi-tâches dans une représentation de séquence unifiée et en exploitant la capacité d'apprentissage à long contexte de l'auto-attention complète pour capturer la dynamique des conditions, FullDiT réduit la surcharge des paramètres, évite les conflits de conditions, et montre une scalabilité et une capacité émergente. Nous introduisons également FullBench pour l'évaluation de la génération de vidéo multi-tâches. Les expériences démontrent que FullDiT atteint des résultats de pointe, mettant en évidence l'efficacité de l'attention complète dans la génération de vidéo multi-tâches complexe.
English
Current video generative foundation models primarily focus on text-to-video
tasks, providing limited control for fine-grained video content creation.
Although adapter-based approaches (e.g., ControlNet) enable additional controls
with minimal fine-tuning, they encounter challenges when integrating multiple
conditions, including: branch conflicts between independently trained adapters,
parameter redundancy leading to increased computational cost, and suboptimal
performance compared to full fine-tuning. To address these challenges, we
introduce FullDiT, a unified foundation model for video generation that
seamlessly integrates multiple conditions via unified full-attention
mechanisms. By fusing multi-task conditions into a unified sequence
representation and leveraging the long-context learning ability of full
self-attention to capture condition dynamics, FullDiT reduces parameter
overhead, avoids conditions conflict, and shows scalability and emergent
ability. We further introduce FullBench for multi-task video generation
evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art
results, highlighting the efficacy of full-attention in complex multi-task
video generation.Summary
AI-Generated Summary