HL-OutPaint: Grob-zu-Fein-Video-Outpainting für hochauflösende Langzeitvideos

Zusammenfassung

Video-Outpainting erzeugt plausible visuelle Inhalte jenseits der ursprünglichen räumlichen Ausdehnung eines Videos und spielt eine Schlüsselrolle bei der Anpassung von Videos an verschiedene Anzeigeformate. Um solche Anwendungsfälle zu unterstützen, muss es eine große räumliche Extrapolation über lange Sequenzen hinweg ermöglichen. Die meisten bestehenden Methoden adressieren jedoch nur eine dieser Herausforderungen oder verfügen über keine expliziten Mechanismen zur Sicherstellung der globalen räumlich-zeitlichen Konsistenz, was zu erheblichen Einschränkungen führt. In dieser Arbeit schlagen wir HL-OutPaint vor, ein Framework für hochauflösendes Video-Outpainting langer Sequenzen. Unser Ansatz folgt einer grob-zu-fein-Strategie mit einer zweistufigen Pipeline. Zunächst konstruieren wir die Globale Grobführung (GCG), eine niedrig aufgelöste Repräsentation, die die globale Struktur und die dominante Bewegung im gesamten Video erfasst. Anders als einfaches Downsampling wird GCG durch einen neuartigen global-lokalen Frame-Austauschmechanismus aufgebaut, der spärliche globale Schlüsselbilder mit lokalen Zeitfenstern koppelt und während des Samplings Informationen austauscht. Dies ermöglicht es GCG, sowohl langfristige strukturelle Konsistenz als auch kurzfristige zeitliche Dynamik in einer einheitlichen Repräsentation zu kodieren. Auf Basis dieser Repräsentation führt HL-OutPaint dann ein hochauflösendes Outpainting durch, um räumlich detaillierte und zeitlich konsistente Inhalte zu erzeugen. Durch die Trennung der globalen Strukturmodellierung von der feinkörnigen Synthese erreicht unser Framework eine stabile, kohärente Erzeugung für große räumliche Expansionen und lange Videosequenzen. Umfangreiche Experimente zeigen, dass HL-OutPaint bestehende Methoden in anspruchsvollen Szenarien mit großer räumlicher Extrapolation und langen Videosequenzen übertrifft.

English

Video outpainting generates plausible visual content beyond the original spatial extent of a video, playing a key role in adapting videos to diverse display formats. To support such use cases, it must enable large spatial extrapolation over long sequences. However, most existing methods address only one of these challenges or lack explicit mechanisms for ensuring global spatio-temporal consistency, leading to notable limitations. In this paper, we propose HL-OutPaint, a high-resolution video outpainting framework for long sequences. Our approach follows a coarse-to-fine strategy with a two-stage pipeline. We first construct Global Coarse Guidance (GCG), a low-resolution representation that captures global structure and dominant motion across the video. Unlike naive downsampling, GCG is built via a novel global-local frame swapping mechanism that couples sparse global keyframes with local temporal windows and exchanges information during sampling. This enables GCG to encode both long-term structural consistency and short-term temporal dynamics in a unified representation. Guided by this representation, HL-OutPaint then performs high-resolution outpainting to generate spatially detailed and temporally consistent content. By separating global structure modeling from fine-grained synthesis, our framework achieves stable, coherent generation for large spatial expansion and long video sequences. Extensive experiments show that HL-OutPaint outperforms existing methods in challenging scenarios involving wide spatial extrapolation and long video sequences.