EditCtrl: Entflochtene lokale und globale Steuerung für Echtzeit-Generative-Video-Bearbeitung

papers.abstract

Hochwertige generative Videobearbeitung hat durch die Nutzung vortrainierter Video-Foundation-Modelle erhebliche Qualitätsverbesserungen erfahren. Allerdings stellen deren Rechenkosten einen großen Engpass dar, da sie oft darauf ausgelegt sind, den gesamten Videokontext ineffizient zu verarbeiten – unabhängig von der Größe der Inpainting-Maske, selbst bei spärlichen, lokalisierten Bearbeitungen. In diesem Artikel stellen wir EditCtrl vor, ein effizientes Steuerungsframework für Video-Inpainting, das Rechenleistung nur dort konzentriert, wo sie benötigt wird. Unser Ansatz verfügt über ein neuartiges lokales Videokontextmodul, das ausschließlich auf maskierten Tokens operiert und so Rechenkosten erzeugt, die proportional zur Bearbeitungsgröße sind. Diese lokal-zentrierte Generierung wird anschließend von einem leichtgewichtigen temporalen Global-Kontext-Einbettungsmodul geleitet, das konsistente Kontextbeziehungen über das gesamte Video hinweg mit minimalem Mehraufwand gewährleistet. EditCtrl ist nicht nur 10-mal recheneffizienter als state-of-the-art generative Bearbeitungsmethoden, sondern verbessert sogar die Bearbeitungsqualität im Vergleich zu Methoden, die auf Voll-Attention ausgelegt sind. Abschließend demonstrieren wir, wie EditCtrl neue Fähigkeiten ermöglicht, einschließlich Mehrfachbereichs-Bearbeitung mit Textprompts und autoregressiver Inhaltsverbreitung.

English

High-fidelity generative video editing has seen significant quality improvements by leveraging pre-trained video foundation models. However, their computational cost is a major bottleneck, as they are often designed to inefficiently process the full video context regardless of the inpainting mask's size, even for sparse, localized edits. In this paper, we introduce EditCtrl, an efficient video inpainting control framework that focuses computation only where it is needed. Our approach features a novel local video context module that operates solely on masked tokens, yielding a computational cost proportional to the edit size. This local-first generation is then guided by a lightweight temporal global context embedder that ensures video-wide context consistency with minimal overhead. Not only is EditCtrl 10 times more compute efficient than state-of-the-art generative editing methods, it even improves editing quality compared to methods designed with full-attention. Finally, we showcase how EditCtrl unlocks new capabilities, including multi-region editing with text prompts and autoregressive content propagation.

EditCtrl: Entflochtene lokale und globale Steuerung für Echtzeit-Generative-Video-Bearbeitung

EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

papers.abstract

Support