VideoCanvas : Complétion vidéo unifiée à partir de patchs spatiotemporels arbitraires via un conditionnement contextuel

papers.abstract

Nous introduisons la tâche de complétion vidéo spatio-temporelle arbitraire, où une vidéo est générée à partir de patches arbitraires spécifiés par l'utilisateur, placés à n'importe quel emplacement spatial et instantané, similaire à peindre sur une toile vidéo. Cette formulation flexible unifie naturellement de nombreuses tâches existantes de génération vidéo contrôlable—y compris la génération vidéo à partir d'une première image, l'inpainting, l'extension et l'interpolation—sous un paradigme unique et cohérent. Cependant, la réalisation de cette vision se heurte à un obstacle fondamental dans les modèles modernes de diffusion vidéo latente : l'ambiguïté temporelle introduite par les VAEs causaux, où plusieurs trames de pixels sont compressées en une seule représentation latente, rendant difficile structurellement un conditionnement précis au niveau de la trame. Nous relevons ce défi avec VideoCanvas, un cadre novateur qui adapte le paradigme de conditionnement in-context (ICC) à cette tâche de contrôle fin sans ajouter de nouveaux paramètres. Nous proposons une stratégie de conditionnement hybride qui découple le contrôle spatial et temporel : le placement spatial est géré via un remplissage par zéros, tandis que l'alignement temporel est réalisé grâce à l'interpolation temporelle RoPE, qui attribue à chaque condition une position fractionnaire continue dans la séquence latente. Cela résout l'ambiguïté temporelle du VAE et permet un contrôle conscient des trames de pixels sur un modèle figé. Pour évaluer cette nouvelle capacité, nous développons VideoCanvasBench, le premier benchmark pour la complétion vidéo spatio-temporelle arbitraire, couvrant à la fois la fidélité intra-scène et la créativité inter-scène. Les expériences démontrent que VideoCanvas surpasse significativement les paradigmes de conditionnement existants, établissant un nouvel état de l'art dans la génération vidéo flexible et unifiée.

English

We introduce the task of arbitrary spatio-temporal video completion, where a video is generated from arbitrary, user-specified patches placed at any spatial location and timestamp, akin to painting on a video canvas. This flexible formulation naturally unifies many existing controllable video generation tasks--including first-frame image-to-video, inpainting, extension, and interpolation--under a single, cohesive paradigm. Realizing this vision, however, faces a fundamental obstacle in modern latent video diffusion models: the temporal ambiguity introduced by causal VAEs, where multiple pixel frames are compressed into a single latent representation, making precise frame-level conditioning structurally difficult. We address this challenge with VideoCanvas, a novel framework that adapts the In-Context Conditioning (ICC) paradigm to this fine-grained control task with zero new parameters. We propose a hybrid conditioning strategy that decouples spatial and temporal control: spatial placement is handled via zero-padding, while temporal alignment is achieved through Temporal RoPE Interpolation, which assigns each condition a continuous fractional position within the latent sequence. This resolves the VAE's temporal ambiguity and enables pixel-frame-aware control on a frozen backbone. To evaluate this new capability, we develop VideoCanvasBench, the first benchmark for arbitrary spatio-temporal video completion, covering both intra-scene fidelity and inter-scene creativity. Experiments demonstrate that VideoCanvas significantly outperforms existing conditioning paradigms, establishing a new state of the art in flexible and unified video generation.

VideoCanvas : Complétion vidéo unifiée à partir de patchs spatiotemporels arbitraires via un conditionnement contextuel

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

papers.abstract

Support