EditCtrl: Controle Desacoplado Local e Global para Edição Generativa de Vídeo em Tempo Real

Resumo

A edição generativa de vídeo de alta fidelidade tem registado melhorias significativas de qualidade através da utilização de modelos de base de vídeo pré-treinados. No entanto, o seu custo computacional é um grande estrangulamento, uma vez que estes modelos são frequentemente concebidos para processar de forma ineficiente o contexto completo do vídeo, independentemente do tamanho da máscara de preenchimento, mesmo para edições esparsas e localizadas. Neste artigo, apresentamos o EditCtrl, uma estrutura de controlo de preenchimento de vídeo eficiente que concentra a computação apenas onde é necessária. A nossa abordagem inclui um novo módulo de contexto de vídeo local que opera exclusivamente em tokens mascarados, resultando num custo computacional proporcional ao tamanho da edição. Esta geração de prioridade local é depois orientada por um incorporador de contexto global temporal leve, que garante a consistência do contexto em todo o vídeo com uma sobrecarga mínima. O EditCtrl não é apenas 10 vezes mais eficiente em termos computacionais do que os métodos de edição generativa mais avançados, como também melhora a qualidade da edição em comparação com métodos concebidos com atenção completa. Por fim, demonstramos como o EditCtrl permite novas capacidades, incluindo a edição multi-região com instruções textuais e a propagação autoregressiva de conteúdo.

English

High-fidelity generative video editing has seen significant quality improvements by leveraging pre-trained video foundation models. However, their computational cost is a major bottleneck, as they are often designed to inefficiently process the full video context regardless of the inpainting mask's size, even for sparse, localized edits. In this paper, we introduce EditCtrl, an efficient video inpainting control framework that focuses computation only where it is needed. Our approach features a novel local video context module that operates solely on masked tokens, yielding a computational cost proportional to the edit size. This local-first generation is then guided by a lightweight temporal global context embedder that ensures video-wide context consistency with minimal overhead. Not only is EditCtrl 10 times more compute efficient than state-of-the-art generative editing methods, it even improves editing quality compared to methods designed with full-attention. Finally, we showcase how EditCtrl unlocks new capabilities, including multi-region editing with text prompts and autoregressive content propagation.

EditCtrl: Controle Desacoplado Local e Global para Edição Generativa de Vídeo em Tempo Real

EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

Resumo

Support