VideoCanvas: Единый подход к завершению видео на основе произвольных пространственно-временных фрагментов с использованием контекстного условного моделирования
VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
October 9, 2025
Авторы: Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue
cs.AI
Аннотация
Мы представляем задачу произвольного пространственно-временного завершения видео, в котором видео генерируется из произвольных, заданных пользователем патчей, размещенных в любом пространственном положении и временной метке, аналогично рисованию на видео-холсте. Эта гибкая формулировка естественным образом объединяет множество существующих задач управляемой генерации видео — включая генерацию видео из первого кадра, восстановление, расширение и интерполяцию — в единую, целостную парадигму. Однако реализация этой идеи сталкивается с фундаментальным препятствием в современных латентных моделях диффузии видео: временной неоднозначностью, вносимой причинными VAE, где несколько пиксельных кадров сжимаются в единое латентное представление, что делает точное управление на уровне кадров структурно сложным. Мы решаем эту проблему с помощью VideoCanvas, нового фреймворка, который адаптирует парадигму In-Context Conditioning (ICC) к этой задаче тонкого управления без добавления новых параметров. Мы предлагаем гибридную стратегию управления, которая разделяет пространственное и временное управление: пространственное размещение обрабатывается через нулевое заполнение, а временное выравнивание достигается с помощью Temporal RoPE Interpolation, которое присваивает каждому условию непрерывную дробную позицию в латентной последовательности. Это устраняет временную неоднозначность VAE и позволяет осуществлять управление на уровне пиксельных кадров на замороженной архитектуре. Для оценки этой новой возможности мы разрабатываем VideoCanvasBench, первый бенчмарк для произвольного пространственно-временного завершения видео, охватывающий как внутрисценовую точность, так и межсценовую креативность. Эксперименты показывают, что VideoCanvas значительно превосходит существующие парадигмы управления, устанавливая новый уровень гибкой и унифицированной генерации видео.
English
We introduce the task of arbitrary spatio-temporal video completion, where a
video is generated from arbitrary, user-specified patches placed at any spatial
location and timestamp, akin to painting on a video canvas. This flexible
formulation naturally unifies many existing controllable video generation
tasks--including first-frame image-to-video, inpainting, extension, and
interpolation--under a single, cohesive paradigm. Realizing this vision,
however, faces a fundamental obstacle in modern latent video diffusion models:
the temporal ambiguity introduced by causal VAEs, where multiple pixel frames
are compressed into a single latent representation, making precise frame-level
conditioning structurally difficult. We address this challenge with
VideoCanvas, a novel framework that adapts the In-Context Conditioning (ICC)
paradigm to this fine-grained control task with zero new parameters. We propose
a hybrid conditioning strategy that decouples spatial and temporal control:
spatial placement is handled via zero-padding, while temporal alignment is
achieved through Temporal RoPE Interpolation, which assigns each condition a
continuous fractional position within the latent sequence. This resolves the
VAE's temporal ambiguity and enables pixel-frame-aware control on a frozen
backbone. To evaluate this new capability, we develop VideoCanvasBench, the
first benchmark for arbitrary spatio-temporal video completion, covering both
intra-scene fidelity and inter-scene creativity. Experiments demonstrate that
VideoCanvas significantly outperforms existing conditioning paradigms,
establishing a new state of the art in flexible and unified video generation.