Generazione Composizionale di Video come Equalizzazione del Flusso
Compositional Video Generation as Flow Equalization
June 10, 2024
Autori: Xingyi Yang, Xinchao Wang
cs.AI
Abstract
I modelli di diffusione su larga scala per la generazione di video da testo (Text-to-Video, T2V) hanno recentemente dimostrato una capacità senza precedenti di trasformare descrizioni in linguaggio naturale in video straordinari e fotorealistici. Nonostante i risultati promettenti, rimane una sfida significativa: questi modelli faticano a comprendere appieno le interazioni compositive complesse tra più concetti e azioni. Questo problema si manifesta quando alcune parole influenzano in modo dominante il video finale, oscurando altri concetti. Per affrontare questo problema, introduciamo Vico, un framework generico per la generazione compositiva di video che garantisce esplicitamente che tutti i concetti siano rappresentati correttamente. Nel suo nucleo, Vico analizza come i token di input influenzano il video generato e regola il modello per impedire che un singolo concetto domini. Nello specifico, Vico estrae i pesi di attenzione da tutti i livelli per costruire un grafo di attenzione spazio-temporale, e poi stima l'influenza come il flusso massimo dal token di testo sorgente al token di video target. Sebbene il calcolo diretto del flusso di attenzione nei modelli di diffusione sia tipicamente infattibile, abbiamo ideato un'approssimazione efficiente basata su flussi di sottografi e impiegato un'implementazione veloce e vettorizzata, che rende il calcolo del flusso gestibile e differenziabile. Aggiornando il rumore latente per bilanciare questi flussi, Vico cattura interazioni complesse e produce di conseguenza video che aderiscono strettamente alle descrizioni testuali. Applichiamo il nostro metodo a più modelli di video basati su diffusione per la generazione compositiva di video T2V e l'editing video. I risultati empirici dimostrano che il nostro framework migliora significativamente la ricchezza compositiva e l'accuratezza dei video generati. Visita il nostro sito web all'indirizzo~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.
English
Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated
unprecedented capability to transform natural language descriptions into
stunning and photorealistic videos. Despite the promising results, a
significant challenge remains: these models struggle to fully grasp complex
compositional interactions between multiple concepts and actions. This issue
arises when some words dominantly influence the final video, overshadowing
other concepts.To tackle this problem, we introduce Vico, a generic
framework for compositional video generation that explicitly ensures all
concepts are represented properly. At its core, Vico analyzes how input tokens
influence the generated video, and adjusts the model to prevent any single
concept from dominating. Specifically, Vico extracts attention weights from all
layers to build a spatial-temporal attention graph, and then estimates the
influence as the max-flow from the source text token to the video target
token. Although the direct computation of attention flow in diffusion models is
typically infeasible, we devise an efficient approximation based on subgraph
flows and employ a fast and vectorized implementation, which in turn makes the
flow computation manageable and differentiable. By updating the noisy latent to
balance these flows, Vico captures complex interactions and consequently
produces videos that closely adhere to textual descriptions. We apply our
method to multiple diffusion-based video models for compositional T2V and video
editing. Empirical results demonstrate that our framework significantly
enhances the compositional richness and accuracy of the generated videos. Visit
our website
at~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.