ChatPaper.aiChatPaper

EditCtrl : Contrôle local et global dissocié pour l'édition vidéo générative en temps réel

EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

February 16, 2026
papers.authors: Yehonathan Litman, Shikun Liu, Dario Seyb, Nicholas Milef, Yang Zhou, Carl Marshall, Shubham Tulsiani, Caleb Leak
cs.AI

papers.abstract

L'édition générative vidéo haute fidélité a connu des améliorations significatives de qualité grâce à l'exploitation de modèles de fond pré-entraînés pour la vidéo. Cependant, leur coût computationnel constitue un goulot d'étranglement majeur, car ils sont souvent conçus pour traiter de manière inefficace l'intégralité du contexte vidéo, indépendamment de la taille du masque d'inpainting, même pour des modifications localisées et éparses. Dans cet article, nous présentons EditCtrl, un cadre de contrôle efficace pour l'inpainting vidéo qui concentre les calculs uniquement là où c'est nécessaire. Notre approche intègre un nouveau module de contexte vidéo local qui opère exclusivement sur les tokens masqués, engendrant un coût computationnel proportionnel à la taille de l'édition. Cette génération axée sur le local est ensuite guidée par un encodeur de contexte global temporel léger, qui assure la cohérence contextuelle à l'échelle de la vidéo avec une surcharge minimale. Non seulement EditCtrl est 10 fois plus efficace en calcul que les méthodes génératives d'édition de pointe, mais il améliore même la qualité de l'édition par rapport aux méthodes conçues avec une attention complète. Enfin, nous démontrons comment EditCtrl ouvre de nouvelles capacités, incluant l'édition multi-région avec des invites textuelles et la propagation de contenu auto-régressive.
English
High-fidelity generative video editing has seen significant quality improvements by leveraging pre-trained video foundation models. However, their computational cost is a major bottleneck, as they are often designed to inefficiently process the full video context regardless of the inpainting mask's size, even for sparse, localized edits. In this paper, we introduce EditCtrl, an efficient video inpainting control framework that focuses computation only where it is needed. Our approach features a novel local video context module that operates solely on masked tokens, yielding a computational cost proportional to the edit size. This local-first generation is then guided by a lightweight temporal global context embedder that ensures video-wide context consistency with minimal overhead. Not only is EditCtrl 10 times more compute efficient than state-of-the-art generative editing methods, it even improves editing quality compared to methods designed with full-attention. Finally, we showcase how EditCtrl unlocks new capabilities, including multi-region editing with text prompts and autoregressive content propagation.
PDF12February 18, 2026