VideoCanvas: Uniforme Videovoltooiing vanuit Willekeurige Spatiotemporele Patches via In-Context Conditionering
VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
October 9, 2025
Auteurs: Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue
cs.AI
Samenvatting
We introduceren de taak van willekeurige spatio-temporele videovoltooiing, waarbij een video wordt gegenereerd uit willekeurige, door de gebruiker gespecificeerde patches die op elke ruimtelijke locatie en tijdstempel worden geplaatst, vergelijkbaar met schilderen op een videocanvas. Deze flexibele formulering verenigt van nature veel bestaande beheersbare videogeneratietaken—waaronder first-frame image-to-video, inpainting, extensie en interpolatie—onder een enkel, samenhangend paradigma. Het realiseren van deze visie stuit echter op een fundamenteel obstakel in moderne latente videodiffusiemodellen: de temporele ambiguïteit die wordt geïntroduceerd door causale VAEs, waarbij meerdere pixelframes worden samengedrukt in een enkele latente representatie, wat precieze frame-level conditionering structureel moeilijk maakt. We pakken deze uitdaging aan met VideoCanvas, een nieuw framework dat het In-Context Conditioning (ICC)-paradigma aanpast aan deze fijnmazige controle-taak zonder nieuwe parameters. We stellen een hybride conditioneringsstrategie voor die ruimtelijke en temporele controle ontkoppelt: ruimtelijke plaatsing wordt afgehandeld via zero-padding, terwijl temporele uitlijning wordt bereikt door middel van Temporal RoPE Interpolation, die elke conditie een continue fractionele positie binnen de latente sequentie toekent. Dit lost de temporele ambiguïteit van de VAE op en maakt pixelframe-bewuste controle mogelijk op een bevroren backbone. Om deze nieuwe mogelijkheid te evalueren, ontwikkelen we VideoCanvasBench, de eerste benchmark voor willekeurige spatio-temporele videovoltooiing, die zowel intra-scène trouw als inter-scène creativiteit omvat. Experimenten tonen aan dat VideoCanvas bestaande conditioneringsparadigma's aanzienlijk overtreft, wat een nieuwe standaard vestigt in flexibele en verenigde videogeneratie.
English
We introduce the task of arbitrary spatio-temporal video completion, where a
video is generated from arbitrary, user-specified patches placed at any spatial
location and timestamp, akin to painting on a video canvas. This flexible
formulation naturally unifies many existing controllable video generation
tasks--including first-frame image-to-video, inpainting, extension, and
interpolation--under a single, cohesive paradigm. Realizing this vision,
however, faces a fundamental obstacle in modern latent video diffusion models:
the temporal ambiguity introduced by causal VAEs, where multiple pixel frames
are compressed into a single latent representation, making precise frame-level
conditioning structurally difficult. We address this challenge with
VideoCanvas, a novel framework that adapts the In-Context Conditioning (ICC)
paradigm to this fine-grained control task with zero new parameters. We propose
a hybrid conditioning strategy that decouples spatial and temporal control:
spatial placement is handled via zero-padding, while temporal alignment is
achieved through Temporal RoPE Interpolation, which assigns each condition a
continuous fractional position within the latent sequence. This resolves the
VAE's temporal ambiguity and enables pixel-frame-aware control on a frozen
backbone. To evaluate this new capability, we develop VideoCanvasBench, the
first benchmark for arbitrary spatio-temporal video completion, covering both
intra-scene fidelity and inter-scene creativity. Experiments demonstrate that
VideoCanvas significantly outperforms existing conditioning paradigms,
establishing a new state of the art in flexible and unified video generation.