HL-OutPaint: Extrapolación de Video de Grueso a Fino para Videos de Alta Resolución y Largo Alcance

Resumen

La extrapolación de video genera contenido visual plausible más allá de la extensión espacial original de un video, desempeñando un papel clave en la adaptación de videos a diversos formatos de visualización. Para respaldar estos casos de uso, es necesario permitir una gran extrapolación espacial en secuencias largas. Sin embargo, la mayoría de los métodos existentes abordan solo uno de estos desafíos o carecen de mecanismos explícitos para garantizar la consistencia espacio-temporal global, lo que conlleva limitaciones notables. En este artículo, proponemos HL-OutPaint, un marco de extrapolación de video de alta resolución para secuencias largas. Nuestro enfoque sigue una estrategia de grueso a fino con un flujo de trabajo en dos etapas. Primero construimos la Guía Global Gruesa (GCG, por sus siglas en inglés), una representación de baja resolución que captura la estructura global y el movimiento dominante a lo largo del video. A diferencia del submuestreo simple, la GCG se construye mediante un novedoso mecanismo de intercambio de fotogramas global-local que combina fotogramas clave globales dispersos con ventanas temporales locales e intercambia información durante el muestreo. Esto permite que la GCG codifique tanto la consistencia estructural a largo plazo como la dinámica temporal a corto plazo en una representación unificada. Guiado por esta representación, HL-OutPaint realiza entonces una extrapolación de alta resolución para generar contenido espacialmente detallado y temporalmente consistente. Al separar el modelado de la estructura global de la síntesis de grano fino, nuestro marco logra una generación estable y coherente para una gran expansión espacial y secuencias de video largas. Experimentos exhaustivos muestran que HL-OutPaint supera a los métodos existentes en escenarios desafiantes que involucran una amplia extrapolación espacial y secuencias de video largas.

English

Video outpainting generates plausible visual content beyond the original spatial extent of a video, playing a key role in adapting videos to diverse display formats. To support such use cases, it must enable large spatial extrapolation over long sequences. However, most existing methods address only one of these challenges or lack explicit mechanisms for ensuring global spatio-temporal consistency, leading to notable limitations. In this paper, we propose HL-OutPaint, a high-resolution video outpainting framework for long sequences. Our approach follows a coarse-to-fine strategy with a two-stage pipeline. We first construct Global Coarse Guidance (GCG), a low-resolution representation that captures global structure and dominant motion across the video. Unlike naive downsampling, GCG is built via a novel global-local frame swapping mechanism that couples sparse global keyframes with local temporal windows and exchanges information during sampling. This enables GCG to encode both long-term structural consistency and short-term temporal dynamics in a unified representation. Guided by this representation, HL-OutPaint then performs high-resolution outpainting to generate spatially detailed and temporally consistent content. By separating global structure modeling from fine-grained synthesis, our framework achieves stable, coherent generation for large spatial expansion and long video sequences. Extensive experiments show that HL-OutPaint outperforms existing methods in challenging scenarios involving wide spatial extrapolation and long video sequences.