HL-OutPaint: Outpainting de Vídeo do Grosseiro ao Fino para Vídeos de Alta Resolução e Longo Alcance

Resumo

A extrapolação de vídeo gera conteúdo visual plausível além da extensão espacial original de um vídeo, desempenhando um papel fundamental na adaptação de vídeos a diversos formatos de exibição. Para suportar tais casos de uso, é necessário permitir uma grande extrapolação espacial em sequências longas. No entanto, a maioria dos métodos existentes aborda apenas um desses desafios ou carece de mecanismos explícitos para garantir consistência espaçotemporal global, resultando em limitações notáveis. Neste artigo, propomos o HL-OutPaint, uma estrutura de extrapolação de vídeo em alta resolução para sequências longas. Nossa abordagem segue uma estratégia do grosseiro para o fino com um pipeline de duas etapas. Primeiro, construímos a Orientação Grosseira Global (GCG), uma representação de baixa resolução que captura a estrutura global e o movimento dominante em todo o vídeo. Diferentemente da subamostragem ingênua, a GCG é construída por meio de um novo mecanismo de troca de quadros global-local, que acopla quadros-chave globais esparsos com janelas temporais locais e troca informações durante a amostragem. Isso permite que a GCG codifique tanto a consistência estrutural de longo prazo quanto a dinâmica temporal de curto prazo em uma representação unificada. Guiado por essa representação, o HL-OutPaint então realiza a extrapolação em alta resolução para gerar conteúdo espacialmente detalhado e temporalmente consistente. Ao separar a modelagem da estrutura global da síntese refinada, nossa estrutura alcança geração estável e coerente para grande expansão espacial e sequências longas de vídeo. Experimentos extensivos mostram que o HL-OutPaint supera os métodos existentes em cenários desafiadores que envolvem extrapolação espacial ampla e sequências longas de vídeo.

English

Video outpainting generates plausible visual content beyond the original spatial extent of a video, playing a key role in adapting videos to diverse display formats. To support such use cases, it must enable large spatial extrapolation over long sequences. However, most existing methods address only one of these challenges or lack explicit mechanisms for ensuring global spatio-temporal consistency, leading to notable limitations. In this paper, we propose HL-OutPaint, a high-resolution video outpainting framework for long sequences. Our approach follows a coarse-to-fine strategy with a two-stage pipeline. We first construct Global Coarse Guidance (GCG), a low-resolution representation that captures global structure and dominant motion across the video. Unlike naive downsampling, GCG is built via a novel global-local frame swapping mechanism that couples sparse global keyframes with local temporal windows and exchanges information during sampling. This enables GCG to encode both long-term structural consistency and short-term temporal dynamics in a unified representation. Guided by this representation, HL-OutPaint then performs high-resolution outpainting to generate spatially detailed and temporally consistent content. By separating global structure modeling from fine-grained synthesis, our framework achieves stable, coherent generation for large spatial expansion and long video sequences. Extensive experiments show that HL-OutPaint outperforms existing methods in challenging scenarios involving wide spatial extrapolation and long video sequences.