VideoCanvas : Complétion vidéo unifiée à partir de patchs spatiotemporels arbitraires via un conditionnement contextuel
VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
October 9, 2025
papers.authors: Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue
cs.AI
papers.abstract
Nous introduisons la tâche de complétion vidéo spatio-temporelle arbitraire, où une vidéo est générée à partir de patches arbitraires spécifiés par l'utilisateur, placés à n'importe quel emplacement spatial et instantané, similaire à peindre sur une toile vidéo. Cette formulation flexible unifie naturellement de nombreuses tâches existantes de génération vidéo contrôlable—y compris la génération vidéo à partir d'une première image, l'inpainting, l'extension et l'interpolation—sous un paradigme unique et cohérent. Cependant, la réalisation de cette vision se heurte à un obstacle fondamental dans les modèles modernes de diffusion vidéo latente : l'ambiguïté temporelle introduite par les VAEs causaux, où plusieurs trames de pixels sont compressées en une seule représentation latente, rendant difficile structurellement un conditionnement précis au niveau de la trame. Nous relevons ce défi avec VideoCanvas, un cadre novateur qui adapte le paradigme de conditionnement in-context (ICC) à cette tâche de contrôle fin sans ajouter de nouveaux paramètres. Nous proposons une stratégie de conditionnement hybride qui découple le contrôle spatial et temporel : le placement spatial est géré via un remplissage par zéros, tandis que l'alignement temporel est réalisé grâce à l'interpolation temporelle RoPE, qui attribue à chaque condition une position fractionnaire continue dans la séquence latente. Cela résout l'ambiguïté temporelle du VAE et permet un contrôle conscient des trames de pixels sur un modèle figé. Pour évaluer cette nouvelle capacité, nous développons VideoCanvasBench, le premier benchmark pour la complétion vidéo spatio-temporelle arbitraire, couvrant à la fois la fidélité intra-scène et la créativité inter-scène. Les expériences démontrent que VideoCanvas surpasse significativement les paradigmes de conditionnement existants, établissant un nouvel état de l'art dans la génération vidéo flexible et unifiée.
English
We introduce the task of arbitrary spatio-temporal video completion, where a
video is generated from arbitrary, user-specified patches placed at any spatial
location and timestamp, akin to painting on a video canvas. This flexible
formulation naturally unifies many existing controllable video generation
tasks--including first-frame image-to-video, inpainting, extension, and
interpolation--under a single, cohesive paradigm. Realizing this vision,
however, faces a fundamental obstacle in modern latent video diffusion models:
the temporal ambiguity introduced by causal VAEs, where multiple pixel frames
are compressed into a single latent representation, making precise frame-level
conditioning structurally difficult. We address this challenge with
VideoCanvas, a novel framework that adapts the In-Context Conditioning (ICC)
paradigm to this fine-grained control task with zero new parameters. We propose
a hybrid conditioning strategy that decouples spatial and temporal control:
spatial placement is handled via zero-padding, while temporal alignment is
achieved through Temporal RoPE Interpolation, which assigns each condition a
continuous fractional position within the latent sequence. This resolves the
VAE's temporal ambiguity and enables pixel-frame-aware control on a frozen
backbone. To evaluate this new capability, we develop VideoCanvasBench, the
first benchmark for arbitrary spatio-temporal video completion, covering both
intra-scene fidelity and inter-scene creativity. Experiments demonstrate that
VideoCanvas significantly outperforms existing conditioning paradigms,
establishing a new state of the art in flexible and unified video generation.