EditCtrl: Controllo Disaccoppiato Locale e Globale per l'Editing Video Generativo in Tempo Reale

Abstract

L'editing generativo di video ad alta fedeltà ha registrato significativi miglioramenti qualitativi grazie all'utilizzo di modelli fondazionali video pre-addestrati. Tuttavia, il loro costo computazionale rappresenta un collo di bottiglia maggiore, poiché sono spesso progettati per elaborare inefficientemente l'intero contesto video indipendentemente dalla dimensione della maschera di inpainting, anche per modifiche sparse e localizzate. In questo articolo, presentiamo EditCtrl, un framework di controllo per l'inpainting video efficiente che concentra il calcolo solo dove è necessario. Il nostro approccio include un innovativo modulo per il contesto video locale che opera esclusivamente sui token mascherati, producendo un costo computazionale proporzionale alla dimensione della modifica. Questa generazione di tipo "locale-prima" è poi guidata da un embedder di contesto globale temporale leggero che garantisce la coerenza contestuale sull'intero video con un overhead minimo. EditCtrl non solo è 10 volte più efficiente dal punto di vista computazionale rispetto ai metodi di editing generativo all'avanguardia, ma migliora persino la qualità dell'editing rispetto ai metodi progettati con attenzione completa. Infine, dimostriamo come EditCtrl sblocchi nuove capacità, inclusi l'editing multi-regione con prompt testuali e la propagazione di contenuto autoregressiva.

English

High-fidelity generative video editing has seen significant quality improvements by leveraging pre-trained video foundation models. However, their computational cost is a major bottleneck, as they are often designed to inefficiently process the full video context regardless of the inpainting mask's size, even for sparse, localized edits. In this paper, we introduce EditCtrl, an efficient video inpainting control framework that focuses computation only where it is needed. Our approach features a novel local video context module that operates solely on masked tokens, yielding a computational cost proportional to the edit size. This local-first generation is then guided by a lightweight temporal global context embedder that ensures video-wide context consistency with minimal overhead. Not only is EditCtrl 10 times more compute efficient than state-of-the-art generative editing methods, it even improves editing quality compared to methods designed with full-attention. Finally, we showcase how EditCtrl unlocks new capabilities, including multi-region editing with text prompts and autoregressive content propagation.

EditCtrl: Controllo Disaccoppiato Locale e Globale per l'Editing Video Generativo in Tempo Reale

EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

Abstract

Support