ChatPaper.aiChatPaper

조합적 비디오 생성: 흐름 균등화

Compositional Video Generation as Flow Equalization

June 10, 2024
저자: Xingyi Yang, Xinchao Wang
cs.AI

초록

대규모 텍스트-투-비디오(T2V) 확산 모델은 최근 자연어 설명을 놀랍도록 사실적인 비디오로 변환하는 전례 없는 능력을 보여주었습니다. 그러나 이러한 모델들은 여러 개념과 행동 간의 복잡한 구성적 상호작용을 완전히 이해하는 데 어려움을 겪는 중요한 문제가 남아 있습니다. 이 문제는 일부 단어가 최종 비디오에 지배적인 영향을 미쳐 다른 개념들을 가려버릴 때 발생합니다. 이 문제를 해결하기 위해, 우리는 모든 개념이 적절하게 표현되도록 명시적으로 보장하는 구성적 비디오 생성 프레임워크인 Vico를 소개합니다. Vico의 핵심은 입력 토큰이 생성된 비디오에 미치는 영향을 분석하고, 단일 개념이 지배하지 않도록 모델을 조정하는 것입니다. 구체적으로, Vico는 모든 레이어에서 주의 가중치를 추출하여 시공간적 주의 그래프를 구축한 후, 소스 텍스트 토큰에서 비디오 타겟 토큰까지의 최대 흐름을 영향력으로 추정합니다. 확산 모델에서 주의 흐름을 직접 계산하는 것은 일반적으로 불가능하지만, 우리는 부분 그래프 흐름을 기반으로 한 효율적인 근사 방법을 고안하고 빠르고 벡터화된 구현을 사용하여 흐름 계산을 관리 가능하고 미분 가능하게 만듭니다. 노이즈가 있는 잠재 공간을 업데이트하여 이러한 흐름을 균형 있게 조정함으로써, Vico는 복잡한 상호작용을 포착하고 결과적으로 텍스트 설명에 밀접하게 부합하는 비디오를 생성합니다. 우리는 이 방법을 구성적 T2V 및 비디오 편집을 위한 여러 확산 기반 비디오 모델에 적용했습니다. 실험 결과는 우리의 프레임워크가 생성된 비디오의 구성적 풍부함과 정확성을 크게 향상시킨다는 것을 보여줍니다. 자세한 내용은 웹사이트 https://adamdad.github.io/vico/를 방문해 주세요.
English
Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated unprecedented capability to transform natural language descriptions into stunning and photorealistic videos. Despite the promising results, a significant challenge remains: these models struggle to fully grasp complex compositional interactions between multiple concepts and actions. This issue arises when some words dominantly influence the final video, overshadowing other concepts.To tackle this problem, we introduce Vico, a generic framework for compositional video generation that explicitly ensures all concepts are represented properly. At its core, Vico analyzes how input tokens influence the generated video, and adjusts the model to prevent any single concept from dominating. Specifically, Vico extracts attention weights from all layers to build a spatial-temporal attention graph, and then estimates the influence as the max-flow from the source text token to the video target token. Although the direct computation of attention flow in diffusion models is typically infeasible, we devise an efficient approximation based on subgraph flows and employ a fast and vectorized implementation, which in turn makes the flow computation manageable and differentiable. By updating the noisy latent to balance these flows, Vico captures complex interactions and consequently produces videos that closely adhere to textual descriptions. We apply our method to multiple diffusion-based video models for compositional T2V and video editing. Empirical results demonstrate that our framework significantly enhances the compositional richness and accuracy of the generated videos. Visit our website at~https://adamdad.github.io/vico/{https://adamdad.github.io/vico/}.

Summary

AI-Generated Summary

PDF141November 28, 2024