FullDiT: Modelo Fundacional Generativo de Video Multitarea con Atención Completa
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
March 25, 2025
Autores: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI
Resumen
Los modelos fundamentales generativos de video actuales se centran principalmente en tareas de texto a video, ofreciendo un control limitado para la creación de contenido de video detallado. Aunque los enfoques basados en adaptadores (por ejemplo, ControlNet) permiten controles adicionales con un ajuste fino mínimo, enfrentan desafíos al integrar múltiples condiciones, incluyendo: conflictos entre ramas de adaptadores entrenados de forma independiente, redundancia de parámetros que conduce a un mayor costo computacional y un rendimiento subóptimo en comparación con el ajuste fino completo. Para abordar estos desafíos, presentamos FullDiT, un modelo fundamental unificado para la generación de video que integra perfectamente múltiples condiciones mediante mecanismos de atención completa unificados. Al fusionar condiciones de múltiples tareas en una representación de secuencia unificada y aprovechar la capacidad de aprendizaje de contexto largo de la auto-atención completa para capturar la dinámica de las condiciones, FullDiT reduce la sobrecarga de parámetros, evita conflictos entre condiciones y muestra escalabilidad y capacidad emergente. Además, introducimos FullBench para la evaluación de generación de video en múltiples tareas. Los experimentos demuestran que FullDiT alcanza resultados de vanguardia, destacando la eficacia de la atención completa en la generación de video compleja con múltiples tareas.
English
Current video generative foundation models primarily focus on text-to-video
tasks, providing limited control for fine-grained video content creation.
Although adapter-based approaches (e.g., ControlNet) enable additional controls
with minimal fine-tuning, they encounter challenges when integrating multiple
conditions, including: branch conflicts between independently trained adapters,
parameter redundancy leading to increased computational cost, and suboptimal
performance compared to full fine-tuning. To address these challenges, we
introduce FullDiT, a unified foundation model for video generation that
seamlessly integrates multiple conditions via unified full-attention
mechanisms. By fusing multi-task conditions into a unified sequence
representation and leveraging the long-context learning ability of full
self-attention to capture condition dynamics, FullDiT reduces parameter
overhead, avoids conditions conflict, and shows scalability and emergent
ability. We further introduce FullBench for multi-task video generation
evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art
results, highlighting the efficacy of full-attention in complex multi-task
video generation.Summary
AI-Generated Summary