ChatPaper.aiChatPaper

FullDiT: Modelo de Fundação Gerativo de Vídeo com Múltiplas Tarefas e Atenção Completa

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

March 25, 2025
Autores: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI

Resumo

Os modelos fundamentais atuais de geração de vídeo concentram-se principalmente em tarefas de texto para vídeo, oferecendo controle limitado para a criação de conteúdo de vídeo em nível granular. Embora abordagens baseadas em adaptadores (por exemplo, ControlNet) permitam controles adicionais com ajuste fino mínimo, elas enfrentam desafios ao integrar múltiplas condições, incluindo: conflitos de ramificação entre adaptadores treinados de forma independente, redundância de parâmetros que leva ao aumento do custo computacional e desempenho subótimo em comparação com o ajuste fino completo. Para abordar esses desafios, apresentamos o FullDiT, um modelo fundamental unificado para geração de vídeo que integra perfeitamente múltiplas condições por meio de mecanismos de atenção completa unificados. Ao fundir condições de múltiplas tarefas em uma representação de sequência unificada e aproveitar a capacidade de aprendizado de contexto longo da auto-atenção completa para capturar a dinâmica das condições, o FullDiT reduz a sobrecarga de parâmetros, evita conflitos de condições e demonstra escalabilidade e capacidade emergente. Introduzimos ainda o FullBench para avaliação de geração de vídeo em múltiplas tarefas. Experimentos demonstram que o FullDiT alcança resultados de última geração, destacando a eficácia da atenção completa na geração de vídeo complexa e multi-tarefa.
English
Current video generative foundation models primarily focus on text-to-video tasks, providing limited control for fine-grained video content creation. Although adapter-based approaches (e.g., ControlNet) enable additional controls with minimal fine-tuning, they encounter challenges when integrating multiple conditions, including: branch conflicts between independently trained adapters, parameter redundancy leading to increased computational cost, and suboptimal performance compared to full fine-tuning. To address these challenges, we introduce FullDiT, a unified foundation model for video generation that seamlessly integrates multiple conditions via unified full-attention mechanisms. By fusing multi-task conditions into a unified sequence representation and leveraging the long-context learning ability of full self-attention to capture condition dynamics, FullDiT reduces parameter overhead, avoids conditions conflict, and shows scalability and emergent ability. We further introduce FullBench for multi-task video generation evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art results, highlighting the efficacy of full-attention in complex multi-task video generation.

Summary

AI-Generated Summary

PDF82March 26, 2025