EditCtrl: Ontvlochten lokale en globale controle voor realtime generatieve videobewerking
EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing
February 16, 2026
Auteurs: Yehonathan Litman, Shikun Liu, Dario Seyb, Nicholas Milef, Yang Zhou, Carl Marshall, Shubham Tulsiani, Caleb Leak
cs.AI
Samenvatting
Hoogwaardige generatieve videobewerking heeft aanzienlijke kwaliteitsverbeteringen doorgemaakt door gebruik te maken van vooraf getrainde videofoundationmodellen. Hun rekenkosten vormen echter een grote bottleneck, aangezien ze vaak zijn ontworpen om inefficiënt de volledige videocontext te verwerken, ongeacht de grootte van het inpaintingmasker, zelfs voor sporadische, gelokaliseerde bewerkingen. In dit artikel introduceren we EditCtrl, een efficiënt controleframework voor video-inpainting dat rekenkracht alleen aanwendt waar nodig. Onze aanpak omvat een nieuwe lokale videocontextmodule die uitsluitend op gemaskeerde tokens werkt, wat resulteert in rekenkosten die evenredig zijn met de bewerkingsgrootte. Deze lokale-first generatie wordt vervolgens gestuurd door een lichtgewicht temporale globale contextembedder die contextconsistentie over de hele video garandeert met minimale overhead. EditCtrl is niet alleen 10 keer rekenzuiniger dan state-of-the-art generatieve bewerkingsmethoden, het verbetert zelfs de bewerkingskwaliteit vergeleken met methoden die zijn ontworpen met full-attention. Tot slot demonstreren we hoe EditCtrl nieuwe mogelijkheden ontsluit, waaronder bewerking van meerdere regio's met tekstprompts en autoregressieve contentpropagatie.
English
High-fidelity generative video editing has seen significant quality improvements by leveraging pre-trained video foundation models. However, their computational cost is a major bottleneck, as they are often designed to inefficiently process the full video context regardless of the inpainting mask's size, even for sparse, localized edits. In this paper, we introduce EditCtrl, an efficient video inpainting control framework that focuses computation only where it is needed. Our approach features a novel local video context module that operates solely on masked tokens, yielding a computational cost proportional to the edit size. This local-first generation is then guided by a lightweight temporal global context embedder that ensures video-wide context consistency with minimal overhead. Not only is EditCtrl 10 times more compute efficient than state-of-the-art generative editing methods, it even improves editing quality compared to methods designed with full-attention. Finally, we showcase how EditCtrl unlocks new capabilities, including multi-region editing with text prompts and autoregressive content propagation.