ChatPaper.aiChatPaper

VideoCanvas: Finalización Unificada de Videos a partir de Parches Espaciotemporales Arbitrarios mediante Condicionamiento en Contexto

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

October 9, 2025
Autores: Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue
cs.AI

Resumen

Introducimos la tarea de completado espacio-temporal arbitrario de videos, donde se genera un video a partir de parches especificados por el usuario en cualquier ubicación espacial y marca temporal, similar a pintar sobre un lienzo de video. Esta formulación flexible unifica naturalmente muchas tareas existentes de generación de video controlable—incluyendo la generación de video a partir de una primera imagen, la restauración, la extensión y la interpolación—bajo un paradigma único y cohesivo. Sin embargo, materializar esta visión enfrenta un obstáculo fundamental en los modelos modernos de difusión de video latente: la ambigüedad temporal introducida por los VAEs causales, donde múltiples fotogramas de píxeles se comprimen en una única representación latente, dificultando estructuralmente el condicionamiento preciso a nivel de fotograma. Abordamos este desafío con VideoCanvas, un marco novedoso que adapta el paradigma de Condicionamiento en Contexto (ICC) a esta tarea de control de grano fino sin necesidad de nuevos parámetros. Proponemos una estrategia de condicionamiento híbrida que desacopla el control espacial y temporal: la colocación espacial se maneja mediante relleno de ceros, mientras que la alineación temporal se logra a través de la Interpolación Temporal RoPE, que asigna a cada condición una posición fraccional continua dentro de la secuencia latente. Esto resuelve la ambigüedad temporal del VAE y permite un control consciente de los fotogramas de píxeles en una arquitectura congelada. Para evaluar esta nueva capacidad, desarrollamos VideoCanvasBench, el primer punto de referencia para el completado espacio-temporal arbitrario de videos, cubriendo tanto la fidelidad intraescena como la creatividad interescena. Los experimentos demuestran que VideoCanvas supera significativamente los paradigmas de condicionamiento existentes, estableciendo un nuevo estado del arte en la generación de video flexible y unificada.
English
We introduce the task of arbitrary spatio-temporal video completion, where a video is generated from arbitrary, user-specified patches placed at any spatial location and timestamp, akin to painting on a video canvas. This flexible formulation naturally unifies many existing controllable video generation tasks--including first-frame image-to-video, inpainting, extension, and interpolation--under a single, cohesive paradigm. Realizing this vision, however, faces a fundamental obstacle in modern latent video diffusion models: the temporal ambiguity introduced by causal VAEs, where multiple pixel frames are compressed into a single latent representation, making precise frame-level conditioning structurally difficult. We address this challenge with VideoCanvas, a novel framework that adapts the In-Context Conditioning (ICC) paradigm to this fine-grained control task with zero new parameters. We propose a hybrid conditioning strategy that decouples spatial and temporal control: spatial placement is handled via zero-padding, while temporal alignment is achieved through Temporal RoPE Interpolation, which assigns each condition a continuous fractional position within the latent sequence. This resolves the VAE's temporal ambiguity and enables pixel-frame-aware control on a frozen backbone. To evaluate this new capability, we develop VideoCanvasBench, the first benchmark for arbitrary spatio-temporal video completion, covering both intra-scene fidelity and inter-scene creativity. Experiments demonstrate that VideoCanvas significantly outperforms existing conditioning paradigms, establishing a new state of the art in flexible and unified video generation.
PDF482October 10, 2025