ChatPaper.aiChatPaper

VideoCanvas: Vereinheitlichte Videovervollständigung aus beliebigen spatiotemporalen Patches durch In-Context-Konditionierung

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

October 9, 2025
papers.authors: Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue
cs.AI

papers.abstract

Wir stellen die Aufgabe der beliebigen räumlich-zeitlichen Videovervollständigung vor, bei der ein Video aus beliebigen, vom Benutzer festgelegten Patches erzeugt wird, die an beliebigen räumlichen Positionen und Zeitpunkten platziert werden, ähnlich dem Malen auf einer Videoleinwand. Diese flexible Formulierung vereint auf natürliche Weise viele bestehende kontrollierbare Videoerzeugungsaufgaben – einschließlich Bild-zu-Video aus dem ersten Frame, Inpainting, Erweiterung und Interpolation – unter einem einzigen, kohärenten Paradigma. Die Verwirklichung dieser Vision steht jedoch vor einem grundlegenden Hindernis in modernen latenten Video-Diffusionsmodellen: der zeitlichen Mehrdeutigkeit, die durch kausale VAEs (Variational Autoencoders) eingeführt wird, bei der mehrere Pixel-Frames in eine einzige latente Darstellung komprimiert werden, was eine präzise Frame-bezogene Konditionierung strukturell erschwert. Wir begegnen dieser Herausforderung mit VideoCanvas, einem neuartigen Framework, das das In-Context Conditioning (ICC)-Paradigma für diese fein abgestimmte Kontrollaufgabe ohne zusätzliche Parameter anpasst. Wir schlagen eine hybride Konditionierungsstrategie vor, die räumliche und zeitliche Kontrolle entkoppelt: Die räumliche Platzierung wird durch Nullauffüllung (Zero-Padding) behandelt, während die zeitliche Ausrichtung durch Temporal RoPE Interpolation erreicht wird, die jeder Bedingung eine kontinuierliche Bruchposition innerhalb der latenten Sequenz zuweist. Dies löst die zeitliche Mehrdeutigkeit des VAE und ermöglicht eine Pixel-Frame-bewusste Kontrolle auf einem eingefrorenen Backbone. Um diese neue Fähigkeit zu bewerten, entwickeln wir VideoCanvasBench, den ersten Benchmark für beliebige räumlich-zeitliche Videovervollständigung, der sowohl die Intra-Szenen-Treue als auch die Inter-Szenen-Kreativität abdeckt. Experimente zeigen, dass VideoCanvas bestehende Konditionierungsparadigmen deutlich übertrifft und einen neuen Stand der Technik in der flexiblen und einheitlichen Videoerzeugung etabliert.
English
We introduce the task of arbitrary spatio-temporal video completion, where a video is generated from arbitrary, user-specified patches placed at any spatial location and timestamp, akin to painting on a video canvas. This flexible formulation naturally unifies many existing controllable video generation tasks--including first-frame image-to-video, inpainting, extension, and interpolation--under a single, cohesive paradigm. Realizing this vision, however, faces a fundamental obstacle in modern latent video diffusion models: the temporal ambiguity introduced by causal VAEs, where multiple pixel frames are compressed into a single latent representation, making precise frame-level conditioning structurally difficult. We address this challenge with VideoCanvas, a novel framework that adapts the In-Context Conditioning (ICC) paradigm to this fine-grained control task with zero new parameters. We propose a hybrid conditioning strategy that decouples spatial and temporal control: spatial placement is handled via zero-padding, while temporal alignment is achieved through Temporal RoPE Interpolation, which assigns each condition a continuous fractional position within the latent sequence. This resolves the VAE's temporal ambiguity and enables pixel-frame-aware control on a frozen backbone. To evaluate this new capability, we develop VideoCanvasBench, the first benchmark for arbitrary spatio-temporal video completion, covering both intra-scene fidelity and inter-scene creativity. Experiments demonstrate that VideoCanvas significantly outperforms existing conditioning paradigms, establishing a new state of the art in flexible and unified video generation.
PDF482October 10, 2025