VideoCanvas: Completamento Video Unificato da Patch Spaziotemporali Arbitrarie tramite Condizionamento In-Contesto
VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
October 9, 2025
Autori: Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue
cs.AI
Abstract
Introduciamo il compito di completamento video spazio-temporale arbitrario, in cui un video viene generato a partire da patch specificate dall'utente in qualsiasi posizione spaziale e timestamp, analogamente a dipingere su una tela video. Questa formulazione flessibile unifica naturalmente molti compiti esistenti di generazione video controllata—tra cui immagine-to-video basata sul primo frame, inpainting, estensione e interpolazione—sotto un unico paradigma coerente. Realizzare questa visione, tuttavia, si scontra con un ostacolo fondamentale nei moderni modelli di diffusione video latente: l'ambiguità temporale introdotta dai VAEs causali, in cui più frame di pixel vengono compressi in una singola rappresentazione latente, rendendo strutturalmente difficile un condizionamento preciso a livello di frame. Affrontiamo questa sfida con VideoCanvas, un nuovo framework che adatta il paradigma di In-Context Conditioning (ICC) a questo compito di controllo fine senza l'aggiunta di nuovi parametri. Proponiamo una strategia di condizionamento ibrida che separa il controllo spaziale da quello temporale: il posizionamento spaziale viene gestito tramite zero-padding, mentre l'allineamento temporale è ottenuto attraverso l'Interpolazione Temporale RoPE, che assegna a ciascuna condizione una posizione frazionaria continua all'interno della sequenza latente. Questo risolve l'ambiguità temporale del VAE e abilita un controllo consapevole dei frame di pixel su un backbone congelato. Per valutare questa nuova capacità, sviluppiamo VideoCanvasBench, il primo benchmark per il completamento video spazio-temporale arbitrario, coprendo sia la fedeltà intra-scena che la creatività inter-scena. Gli esperimenti dimostrano che VideoCanvas supera significativamente i paradigmi di condizionamento esistenti, stabilendo un nuovo stato dell'arte nella generazione video flessibile e unificata.
English
We introduce the task of arbitrary spatio-temporal video completion, where a
video is generated from arbitrary, user-specified patches placed at any spatial
location and timestamp, akin to painting on a video canvas. This flexible
formulation naturally unifies many existing controllable video generation
tasks--including first-frame image-to-video, inpainting, extension, and
interpolation--under a single, cohesive paradigm. Realizing this vision,
however, faces a fundamental obstacle in modern latent video diffusion models:
the temporal ambiguity introduced by causal VAEs, where multiple pixel frames
are compressed into a single latent representation, making precise frame-level
conditioning structurally difficult. We address this challenge with
VideoCanvas, a novel framework that adapts the In-Context Conditioning (ICC)
paradigm to this fine-grained control task with zero new parameters. We propose
a hybrid conditioning strategy that decouples spatial and temporal control:
spatial placement is handled via zero-padding, while temporal alignment is
achieved through Temporal RoPE Interpolation, which assigns each condition a
continuous fractional position within the latent sequence. This resolves the
VAE's temporal ambiguity and enables pixel-frame-aware control on a frozen
backbone. To evaluate this new capability, we develop VideoCanvasBench, the
first benchmark for arbitrary spatio-temporal video completion, covering both
intra-scene fidelity and inter-scene creativity. Experiments demonstrate that
VideoCanvas significantly outperforms existing conditioning paradigms,
establishing a new state of the art in flexible and unified video generation.