HL-OutPaint: видео-аутпейнтинг от грубого к точному для высокоразрешающих длительных видео

Аннотация

Видеодополнение генерирует правдоподобное визуальное содержимое за пределами исходного пространственного охвата видео, играя ключевую роль в адаптации видео к различным форматам отображения. Для поддержки таких сценариев использования оно должно обеспечивать большую пространственную экстраполяцию на длинных последовательностях. Однако большинство существующих методов решают лишь одну из этих задач или не имеют явных механизмов обеспечения глобальной пространственно-временной согласованности, что приводит к заметным ограничениям. В этой статье мы предлагаем HL-OutPaint — фреймворк для высокоразрешающего видеодополнения длинных последовательностей. Наш подход следует стратегии от грубого к точному с двухэтапным конвейером. Сначала мы строим глобальное грубое направление (Global Coarse Guidance, GCG) — представление с низким разрешением, которое фиксирует глобальную структуру и доминирующее движение по всему видео. В отличие от наивного понижения разрешения, GCG строится с помощью нового механизма глобально-локального обмена кадрами, который объединяет разреженные глобальные ключевые кадры с локальными временными окнами и обменивается информацией во время дискретизации. Это позволяет GCG кодировать как долгосрочную структурную согласованность, так и краткосрочную временную динамику в едином представлении. Руководствуясь этим представлением, HL-OutPaint затем выполняет высокоразрешающее дополнение для генерации пространственно детализированного и временно согласованного содержимого. Разделяя моделирование глобальной структуры и тонкую детализацию синтеза, наш фреймворк обеспечивает стабильную, когерентную генерацию для большого пространственного расширения и длинных видеопоследовательностей. Обширные эксперименты показывают, что HL-OutPaint превосходит существующие методы в сложных сценариях, включающих широкую пространственную экстраполяцию и длинные видеопоследовательности.

English

Video outpainting generates plausible visual content beyond the original spatial extent of a video, playing a key role in adapting videos to diverse display formats. To support such use cases, it must enable large spatial extrapolation over long sequences. However, most existing methods address only one of these challenges or lack explicit mechanisms for ensuring global spatio-temporal consistency, leading to notable limitations. In this paper, we propose HL-OutPaint, a high-resolution video outpainting framework for long sequences. Our approach follows a coarse-to-fine strategy with a two-stage pipeline. We first construct Global Coarse Guidance (GCG), a low-resolution representation that captures global structure and dominant motion across the video. Unlike naive downsampling, GCG is built via a novel global-local frame swapping mechanism that couples sparse global keyframes with local temporal windows and exchanges information during sampling. This enables GCG to encode both long-term structural consistency and short-term temporal dynamics in a unified representation. Guided by this representation, HL-OutPaint then performs high-resolution outpainting to generate spatially detailed and temporally consistent content. By separating global structure modeling from fine-grained synthesis, our framework achieves stable, coherent generation for large spatial expansion and long video sequences. Extensive experiments show that HL-OutPaint outperforms existing methods in challenging scenarios involving wide spatial extrapolation and long video sequences.