ChatPaper.aiChatPaper

FullDiT: Multi-Task Video Generatief Fundamentemodel met Volledige Aandacht

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

March 25, 2025
Auteurs: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI

Samenvatting

Huidige videogeneratieve basis modellen richten zich voornamelijk op tekst-naar-video taken, wat beperkte controle biedt voor gedetailleerde videocontentcreatie. Hoewel adapter-gebaseerde benaderingen (bijvoorbeeld ControlNet) aanvullende controles mogelijk maken met minimale fine-tuning, ondervinden ze uitdagingen bij het integreren van meerdere voorwaarden, waaronder: takconflicten tussen onafhankelijk getrainde adapters, parameterredundantie die leidt tot verhoogde rekenkosten, en suboptimale prestaties in vergelijking met volledige fine-tuning. Om deze uitdagingen aan te pakken, introduceren we FullDiT, een uniform basis model voor videogeneratie dat naadloos meerdere voorwaarden integreert via uniforme volledige-attentie mechanismen. Door multi-task voorwaarden te combineren in een uniforme sequentiële representatie en gebruik te maken van het lange-context leervermogen van volledige zelf-attentie om conditiedynamiek vast te leggen, vermindert FullDiT parameteroverhead, voorkomt het conditieconflicten, en toont het schaalbaarheid en emergent vermogen. We introduceren verder FullBench voor multi-task videogeneratie evaluatie. Experimenten tonen aan dat FullDiT state-of-the-art resultaten behaalt, wat de effectiviteit van volledige-attentie in complexe multi-task videogeneratie benadrukt.
English
Current video generative foundation models primarily focus on text-to-video tasks, providing limited control for fine-grained video content creation. Although adapter-based approaches (e.g., ControlNet) enable additional controls with minimal fine-tuning, they encounter challenges when integrating multiple conditions, including: branch conflicts between independently trained adapters, parameter redundancy leading to increased computational cost, and suboptimal performance compared to full fine-tuning. To address these challenges, we introduce FullDiT, a unified foundation model for video generation that seamlessly integrates multiple conditions via unified full-attention mechanisms. By fusing multi-task conditions into a unified sequence representation and leveraging the long-context learning ability of full self-attention to capture condition dynamics, FullDiT reduces parameter overhead, avoids conditions conflict, and shows scalability and emergent ability. We further introduce FullBench for multi-task video generation evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art results, highlighting the efficacy of full-attention in complex multi-task video generation.

Summary

AI-Generated Summary

PDF82March 26, 2025