Generación de Video Composicional como Igualación de Flujo
Compositional Video Generation as Flow Equalization
June 10, 2024
Autores: Xingyi Yang, Xinchao Wang
cs.AI
Resumen
Los modelos de difusión de Texto-a-Video (T2V) a gran escala han demostrado recientemente una capacidad sin precedentes para transformar descripciones en lenguaje natural en videos impresionantes y fotorrealistas. A pesar de los resultados prometedores, un desafío significativo persiste: estos modelos tienen dificultades para comprender completamente las complejas interacciones compositivas entre múltiples conceptos y acciones. Este problema surge cuando algunas palabras influyen predominantemente en el video final, eclipsando otros conceptos. Para abordar este problema, presentamos Vico, un marco genérico para la generación de videos compositivos que garantiza explícitamente que todos los conceptos estén representados adecuadamente. En su núcleo, Vico analiza cómo los tokens de entrada influyen en el video generado y ajusta el modelo para evitar que un solo concepto domine. Específicamente, Vico extrae pesos de atención de todas las capas para construir un grafo de atención espacial-temporal, y luego estima la influencia como el flujo máximo desde el token de texto fuente hasta el token de video objetivo. Aunque el cálculo directo del flujo de atención en modelos de difusión suele ser inviable, ideamos una aproximación eficiente basada en flujos de subgráficos y empleamos una implementación rápida y vectorizada, lo que a su vez hace que el cálculo del flujo sea manejable y diferenciable. Al actualizar el latente ruidoso para equilibrar estos flujos, Vico captura interacciones complejas y, en consecuencia, produce videos que se adhieren estrechamente a las descripciones textuales. Aplicamos nuestro método a múltiples modelos de video basados en difusión para T2V compositivo y edición de video. Los resultados empíricos demuestran que nuestro marco mejora significativamente la riqueza compositiva y la precisión de los videos generados. Visite nuestro sitio web en https://adamdad.github.io/vico/.
English
Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated
unprecedented capability to transform natural language descriptions into
stunning and photorealistic videos. Despite the promising results, a
significant challenge remains: these models struggle to fully grasp complex
compositional interactions between multiple concepts and actions. This issue
arises when some words dominantly influence the final video, overshadowing
other concepts.To tackle this problem, we introduce Vico, a generic
framework for compositional video generation that explicitly ensures all
concepts are represented properly. At its core, Vico analyzes how input tokens
influence the generated video, and adjusts the model to prevent any single
concept from dominating. Specifically, Vico extracts attention weights from all
layers to build a spatial-temporal attention graph, and then estimates the
influence as the max-flow from the source text token to the video target
token. Although the direct computation of attention flow in diffusion models is
typically infeasible, we devise an efficient approximation based on subgraph
flows and employ a fast and vectorized implementation, which in turn makes the
flow computation manageable and differentiable. By updating the noisy latent to
balance these flows, Vico captures complex interactions and consequently
produces videos that closely adhere to textual descriptions. We apply our
method to multiple diffusion-based video models for compositional T2V and video
editing. Empirical results demonstrate that our framework significantly
enhances the compositional richness and accuracy of the generated videos. Visit
our website
at~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.Summary
AI-Generated Summary