FullDiT: Multi-Task Video Generatief Fundamentemodel met Volledige Aandacht
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
March 25, 2025
Auteurs: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI
Samenvatting
Huidige videogeneratieve basis modellen richten zich voornamelijk op tekst-naar-video taken, wat beperkte controle biedt voor gedetailleerde videocontentcreatie. Hoewel adapter-gebaseerde benaderingen (bijvoorbeeld ControlNet) aanvullende controles mogelijk maken met minimale fine-tuning, ondervinden ze uitdagingen bij het integreren van meerdere voorwaarden, waaronder: takconflicten tussen onafhankelijk getrainde adapters, parameterredundantie die leidt tot verhoogde rekenkosten, en suboptimale prestaties in vergelijking met volledige fine-tuning. Om deze uitdagingen aan te pakken, introduceren we FullDiT, een uniform basis model voor videogeneratie dat naadloos meerdere voorwaarden integreert via uniforme volledige-attentie mechanismen. Door multi-task voorwaarden te combineren in een uniforme sequentiële representatie en gebruik te maken van het lange-context leervermogen van volledige zelf-attentie om conditiedynamiek vast te leggen, vermindert FullDiT parameteroverhead, voorkomt het conditieconflicten, en toont het schaalbaarheid en emergent vermogen. We introduceren verder FullBench voor multi-task videogeneratie evaluatie. Experimenten tonen aan dat FullDiT state-of-the-art resultaten behaalt, wat de effectiviteit van volledige-attentie in complexe multi-task videogeneratie benadrukt.
English
Current video generative foundation models primarily focus on text-to-video
tasks, providing limited control for fine-grained video content creation.
Although adapter-based approaches (e.g., ControlNet) enable additional controls
with minimal fine-tuning, they encounter challenges when integrating multiple
conditions, including: branch conflicts between independently trained adapters,
parameter redundancy leading to increased computational cost, and suboptimal
performance compared to full fine-tuning. To address these challenges, we
introduce FullDiT, a unified foundation model for video generation that
seamlessly integrates multiple conditions via unified full-attention
mechanisms. By fusing multi-task conditions into a unified sequence
representation and leveraging the long-context learning ability of full
self-attention to capture condition dynamics, FullDiT reduces parameter
overhead, avoids conditions conflict, and shows scalability and emergent
ability. We further introduce FullBench for multi-task video generation
evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art
results, highlighting the efficacy of full-attention in complex multi-task
video generation.Summary
AI-Generated Summary