Geração de Vídeo Composicional como Equalização de Fluxo
Compositional Video Generation as Flow Equalization
June 10, 2024
Autores: Xingyi Yang, Xinchao Wang
cs.AI
Resumo
Modelos de difusão de Texto-para-Vídeo (T2V) em larga escala demonstraram recentemente uma capacidade sem precedentes de transformar descrições em linguagem natural em vídeos impressionantes e fotorrealistas. Apesar dos resultados promissores, um desafio significativo permanece: esses modelos têm dificuldade em compreender completamente as interações composicionais complexas entre múltiplos conceitos e ações. Esse problema surge quando algumas palavras influenciam dominantemente o vídeo final, ofuscando outros conceitos. Para enfrentar esse problema, introduzimos o Vico, um framework genérico para geração de vídeo composicional que garante explicitamente que todos os conceitos sejam representados adequadamente. No cerne do Vico, analisa-se como os tokens de entrada influenciam o vídeo gerado e ajusta-se o modelo para evitar que um único conceito domine. Especificamente, o Vico extrai pesos de atenção de todas as camadas para construir um grafo de atenção espacial-temporal e, em seguida, estima a influência como o fluxo máximo do token de texto de origem para o token de vídeo alvo. Embora o cálculo direto do fluxo de atenção em modelos de difusão seja tipicamente inviável, desenvolvemos uma aproximação eficiente com base em fluxos de subgrafo e utilizamos uma implementação rápida e vetorizada, tornando assim o cálculo de fluxo gerenciável e diferenciável. Ao atualizar o latente ruidoso para equilibrar esses fluxos, o Vico captura interações complexas e, consequentemente, produz vídeos que seguem de perto as descrições textuais. Aplicamos nosso método a múltiplos modelos de vídeo baseados em difusão para T2V composicional e edição de vídeo. Resultados empíricos demonstram que nosso framework melhora significativamente a riqueza composicional e a precisão dos vídeos gerados. Visite nosso website em https://adamdad.github.io/vico/.
English
Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated
unprecedented capability to transform natural language descriptions into
stunning and photorealistic videos. Despite the promising results, a
significant challenge remains: these models struggle to fully grasp complex
compositional interactions between multiple concepts and actions. This issue
arises when some words dominantly influence the final video, overshadowing
other concepts.To tackle this problem, we introduce Vico, a generic
framework for compositional video generation that explicitly ensures all
concepts are represented properly. At its core, Vico analyzes how input tokens
influence the generated video, and adjusts the model to prevent any single
concept from dominating. Specifically, Vico extracts attention weights from all
layers to build a spatial-temporal attention graph, and then estimates the
influence as the max-flow from the source text token to the video target
token. Although the direct computation of attention flow in diffusion models is
typically infeasible, we devise an efficient approximation based on subgraph
flows and employ a fast and vectorized implementation, which in turn makes the
flow computation manageable and differentiable. By updating the noisy latent to
balance these flows, Vico captures complex interactions and consequently
produces videos that closely adhere to textual descriptions. We apply our
method to multiple diffusion-based video models for compositional T2V and video
editing. Empirical results demonstrate that our framework significantly
enhances the compositional richness and accuracy of the generated videos. Visit
our website
at~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.