ChatPaper.aiChatPaper

EditCtrl: Control Desacoplado Local y Global para la Edición Generativa de Video en Tiempo Real

EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

February 16, 2026
Autores: Yehonathan Litman, Shikun Liu, Dario Seyb, Nicholas Milef, Yang Zhou, Carl Marshall, Shubham Tulsiani, Caleb Leak
cs.AI

Resumen

La edición generativa de vídeo de alta fidelidad ha experimentado mejoras significativas en calidad gracias al aprovechamiento de modelos base de vídeo preentrenados. Sin embargo, su coste computacional es un cuello de botella importante, ya que a menudo están diseñados para procesar de forma ineficiente el contexto completo del vídeo, independientemente del tamaño de la máscara de inpaintado, incluso para ediciones localizadas y dispersas. En este artículo, presentamos EditCtrl, un marco de control eficiente para el inpaintado de vídeo que concentra el cómputo solo donde se necesita. Nuestro enfoque incluye un novedoso módulo de contexto local de vídeo que opera únicamente en los tokens enmascarados, resultando en un coste computacional proporcional al tamaño de la edición. Esta generación de prioridad local es luego guiada por un incrustador de contexto global temporal ligero que garantiza la coherencia contextual en todo el vídeo con una sobrecarga mínima. EditCtrl no solo es 10 veces más eficiente computacionalmente que los métodos de edición generativa state-of-the-art, sino que incluso mejora la calidad de la edición en comparación con los métodos diseñados con atención completa. Finalmente, demostramos cómo EditCtrl desbloquea nuevas capacidades, incluyendo la edición multi-región con prompts de texto y la propagación de contenido autoregresiva.
English
High-fidelity generative video editing has seen significant quality improvements by leveraging pre-trained video foundation models. However, their computational cost is a major bottleneck, as they are often designed to inefficiently process the full video context regardless of the inpainting mask's size, even for sparse, localized edits. In this paper, we introduce EditCtrl, an efficient video inpainting control framework that focuses computation only where it is needed. Our approach features a novel local video context module that operates solely on masked tokens, yielding a computational cost proportional to the edit size. This local-first generation is then guided by a lightweight temporal global context embedder that ensures video-wide context consistency with minimal overhead. Not only is EditCtrl 10 times more compute efficient than state-of-the-art generative editing methods, it even improves editing quality compared to methods designed with full-attention. Finally, we showcase how EditCtrl unlocks new capabilities, including multi-region editing with text prompts and autoregressive content propagation.
PDF12February 18, 2026