Генерация видео как композиционное выравнивание потока
Compositional Video Generation as Flow Equalization
June 10, 2024
Авторы: Xingyi Yang, Xinchao Wang
cs.AI
Аннотация
Модели диффузии текста в видео (T2V) крупного масштаба недавно продемонстрировали беспрецедентную способность преобразовывать описания естественного языка в потрясающие и фотореалистичные видеоролики. Несмотря на обнадеживающие результаты, остается значительное препятствие: эти модели испытывают трудности в полном понимании сложных композиционных взаимодействий между несколькими концепциями и действиями. Эта проблема возникает, когда некоторые слова доминируют в конечном видеоролике, затмевая другие концепции. Для решения этой проблемы мы представляем Vico, общий фреймворк для композиционного создания видео, который явно гарантирует правильное представление всех концепций. В основе Vico анализирует, как входные токены влияют на созданное видео, и корректирует модель, чтобы предотвратить доминирование какой-либо одной концепции. Конкретно, Vico извлекает веса внимания из всех слоев для построения пространственно-временного графа внимания, а затем оценивает влияние как максимальный поток от исходного текстового токена к целевому токену видео. Хотя прямое вычисление потока внимания в моделях диффузии обычно невозможно, мы разрабатываем эффективное приближение на основе потоков подграфов и используем быструю и векторизованную реализацию, что в свою очередь делает вычисление потока управляемым и дифференцируемым. Обновляя шумный латент для балансировки этих потоков, Vico захватывает сложные взаимодействия и, следовательно, производит видеоролики, которые тесно соответствуют текстовым описаниям. Мы применяем наш метод к нескольким моделям видео на основе диффузии для композиционного T2V и редактирования видео. Эмпирические результаты демонстрируют, что наш фреймворк значительно улучшает композиционное богатство и точность созданных видеороликов. Посетите наш веб-сайт по адресу https://adamdad.github.io/vico/.
English
Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated
unprecedented capability to transform natural language descriptions into
stunning and photorealistic videos. Despite the promising results, a
significant challenge remains: these models struggle to fully grasp complex
compositional interactions between multiple concepts and actions. This issue
arises when some words dominantly influence the final video, overshadowing
other concepts.To tackle this problem, we introduce Vico, a generic
framework for compositional video generation that explicitly ensures all
concepts are represented properly. At its core, Vico analyzes how input tokens
influence the generated video, and adjusts the model to prevent any single
concept from dominating. Specifically, Vico extracts attention weights from all
layers to build a spatial-temporal attention graph, and then estimates the
influence as the max-flow from the source text token to the video target
token. Although the direct computation of attention flow in diffusion models is
typically infeasible, we devise an efficient approximation based on subgraph
flows and employ a fast and vectorized implementation, which in turn makes the
flow computation manageable and differentiable. By updating the noisy latent to
balance these flows, Vico captures complex interactions and consequently
produces videos that closely adhere to textual descriptions. We apply our
method to multiple diffusion-based video models for compositional T2V and video
editing. Empirical results demonstrate that our framework significantly
enhances the compositional richness and accuracy of the generated videos. Visit
our website
at~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.