HL-OutPaint : Outpainting vidéo du grossier au fin pour vidéos haute résolution de longue durée

Résumé

L'extension vidéo génère un contenu visuel plausible au-delà de l'étendue spatiale originale d'une vidéo, jouant un rôle clé dans l'adaptation des vidéos à divers formats d'affichage. Pour répondre à ces usages, elle doit permettre une extrapolation spatiale importante sur de longues séquences. Cependant, la plupart des méthodes existantes ne traitent qu'un seul de ces défis ou manquent de mécanismes explicites pour garantir une cohérence spatio-temporelle globale, ce qui entraîne des limitations notables. Dans cet article, nous proposons HL-OutPaint, un cadre d'extension vidéo haute résolution pour longues séquences. Notre approche suit une stratégie du grossier au fin avec un pipeline en deux étapes. Nous construisons d'abord le Guidage Grossier Global (GCG), une représentation basse résolution qui capture la structure globale et le mouvement dominant à travers la vidéo. Contrairement à un sous-échantillonnage naïf, le GCG est construit via un mécanisme novateur d'échange de trames global-local qui couple des images clés globales clairsemées avec des fenêtres temporelles locales et échange des informations pendant l'échantillonnage. Cela permet au GCG d'encoder à la fois la cohérence structurelle à long terme et la dynamique temporelle à court terme dans une représentation unifiée. Guidé par cette représentation, HL-OutPaint effectue ensuite une extension haute résolution pour générer un contenu spatialement détaillé et temporellement cohérent. En séparant la modélisation de la structure globale de la synthèse fine, notre cadre parvient à une génération stable et cohérente pour une expansion spatiale importante et de longues séquences vidéo. Des expériences approfondies montrent que HL-OutPaint surpasse les méthodes existantes dans des scénarios difficiles impliquant une large extrapolation spatiale et de longues séquences vidéo.

English

Video outpainting generates plausible visual content beyond the original spatial extent of a video, playing a key role in adapting videos to diverse display formats. To support such use cases, it must enable large spatial extrapolation over long sequences. However, most existing methods address only one of these challenges or lack explicit mechanisms for ensuring global spatio-temporal consistency, leading to notable limitations. In this paper, we propose HL-OutPaint, a high-resolution video outpainting framework for long sequences. Our approach follows a coarse-to-fine strategy with a two-stage pipeline. We first construct Global Coarse Guidance (GCG), a low-resolution representation that captures global structure and dominant motion across the video. Unlike naive downsampling, GCG is built via a novel global-local frame swapping mechanism that couples sparse global keyframes with local temporal windows and exchanges information during sampling. This enables GCG to encode both long-term structural consistency and short-term temporal dynamics in a unified representation. Guided by this representation, HL-OutPaint then performs high-resolution outpainting to generate spatially detailed and temporally consistent content. By separating global structure modeling from fine-grained synthesis, our framework achieves stable, coherent generation for large spatial expansion and long video sequences. Extensive experiments show that HL-OutPaint outperforms existing methods in challenging scenarios involving wide spatial extrapolation and long video sequences.