VideoCanvas: Conclusão Unificada de Vídeo a partir de Patches Espaço-Temporais Arbitrários via Condicionamento em Contexto
VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
October 9, 2025
Autores: Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue
cs.AI
Resumo
Apresentamos a tarefa de completamento espaço-temporal arbitrário de vídeos, na qual um vídeo é gerado a partir de patches especificados pelo usuário em qualquer localização espacial e timestamp, semelhante a pintar em uma tela de vídeo. Essa formulação flexível unifica naturalmente muitas tarefas existentes de geração de vídeo controlável—incluindo geração de vídeo a partir de uma primeira imagem, inpainting, extensão e interpolação—sob um único paradigma coeso. No entanto, realizar essa visão enfrenta um obstáculo fundamental nos modelos modernos de difusão de vídeo latente: a ambiguidade temporal introduzida por VAEs causais, onde múltiplos frames de pixels são comprimidos em uma única representação latente, tornando o condicionamento preciso em nível de frame estruturalmente difícil. Abordamos esse desafio com o VideoCanvas, um novo framework que adapta o paradigma de Condicionamento em Contexto (ICC) para essa tarefa de controle refinado sem a necessidade de novos parâmetros. Propomos uma estratégia de condicionamento híbrida que desacopla o controle espacial e temporal: o posicionamento espacial é tratado via preenchimento com zeros, enquanto o alinhamento temporal é alcançado por meio da Interpolação Temporal RoPE, que atribui a cada condição uma posição fracionária contínua dentro da sequência latente. Isso resolve a ambiguidade temporal do VAE e permite controle consciente dos frames de pixels em um backbone congelado. Para avaliar essa nova capacidade, desenvolvemos o VideoCanvasBench, o primeiro benchmark para completamento espaço-temporal arbitrário de vídeos, abrangendo tanto a fidelidade intra-cena quanto a criatividade inter-cena. Experimentos demonstram que o VideoCanvas supera significativamente os paradigmas de condicionamento existentes, estabelecendo um novo estado da arte em geração de vídeo flexível e unificada.
English
We introduce the task of arbitrary spatio-temporal video completion, where a
video is generated from arbitrary, user-specified patches placed at any spatial
location and timestamp, akin to painting on a video canvas. This flexible
formulation naturally unifies many existing controllable video generation
tasks--including first-frame image-to-video, inpainting, extension, and
interpolation--under a single, cohesive paradigm. Realizing this vision,
however, faces a fundamental obstacle in modern latent video diffusion models:
the temporal ambiguity introduced by causal VAEs, where multiple pixel frames
are compressed into a single latent representation, making precise frame-level
conditioning structurally difficult. We address this challenge with
VideoCanvas, a novel framework that adapts the In-Context Conditioning (ICC)
paradigm to this fine-grained control task with zero new parameters. We propose
a hybrid conditioning strategy that decouples spatial and temporal control:
spatial placement is handled via zero-padding, while temporal alignment is
achieved through Temporal RoPE Interpolation, which assigns each condition a
continuous fractional position within the latent sequence. This resolves the
VAE's temporal ambiguity and enables pixel-frame-aware control on a frozen
backbone. To evaluate this new capability, we develop VideoCanvasBench, the
first benchmark for arbitrary spatio-temporal video completion, covering both
intra-scene fidelity and inter-scene creativity. Experiments demonstrate that
VideoCanvas significantly outperforms existing conditioning paradigms,
establishing a new state of the art in flexible and unified video generation.