ChatPaper.aiChatPaper

FullDiT: Modelo Fundacional Generativo de Video Multitarea con Atención Completa

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

March 25, 2025
Autores: Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu
cs.AI

Resumen

Los modelos fundamentales generativos de video actuales se centran principalmente en tareas de texto a video, ofreciendo un control limitado para la creación de contenido de video detallado. Aunque los enfoques basados en adaptadores (por ejemplo, ControlNet) permiten controles adicionales con un ajuste fino mínimo, enfrentan desafíos al integrar múltiples condiciones, incluyendo: conflictos entre ramas de adaptadores entrenados de forma independiente, redundancia de parámetros que conduce a un mayor costo computacional y un rendimiento subóptimo en comparación con el ajuste fino completo. Para abordar estos desafíos, presentamos FullDiT, un modelo fundamental unificado para la generación de video que integra perfectamente múltiples condiciones mediante mecanismos de atención completa unificados. Al fusionar condiciones de múltiples tareas en una representación de secuencia unificada y aprovechar la capacidad de aprendizaje de contexto largo de la auto-atención completa para capturar la dinámica de las condiciones, FullDiT reduce la sobrecarga de parámetros, evita conflictos entre condiciones y muestra escalabilidad y capacidad emergente. Además, introducimos FullBench para la evaluación de generación de video en múltiples tareas. Los experimentos demuestran que FullDiT alcanza resultados de vanguardia, destacando la eficacia de la atención completa en la generación de video compleja con múltiples tareas.
English
Current video generative foundation models primarily focus on text-to-video tasks, providing limited control for fine-grained video content creation. Although adapter-based approaches (e.g., ControlNet) enable additional controls with minimal fine-tuning, they encounter challenges when integrating multiple conditions, including: branch conflicts between independently trained adapters, parameter redundancy leading to increased computational cost, and suboptimal performance compared to full fine-tuning. To address these challenges, we introduce FullDiT, a unified foundation model for video generation that seamlessly integrates multiple conditions via unified full-attention mechanisms. By fusing multi-task conditions into a unified sequence representation and leveraging the long-context learning ability of full self-attention to capture condition dynamics, FullDiT reduces parameter overhead, avoids conditions conflict, and shows scalability and emergent ability. We further introduce FullBench for multi-task video generation evaluation. Experiments demonstrate that FullDiT achieves state-of-the-art results, highlighting the efficacy of full-attention in complex multi-task video generation.

Summary

AI-Generated Summary

PDF82March 26, 2025