EditCtrl: 실시간 생성형 비디오 편집을 위한 지역 및 전역 제어 분리 기술
EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing
February 16, 2026
저자: Yehonathan Litman, Shikun Liu, Dario Seyb, Nicholas Milef, Yang Zhou, Carl Marshall, Shubham Tulsiani, Caleb Leak
cs.AI
초록
고충실도 생성형 비디오 편집은 사전 학습된 비디오 파운데이션 모델을 활용하여 화질이 크게 향상되었습니다. 그러나 이러한 모델들은 인페인팅 마스크의 크기와 관계없이 전체 비디오 컨텍스트를 비효율적으로 처리하도록 설계된 경우가 많아, 희소하고 지역적인 편집에도 높은 계산 비용이 주요 병목 현상으로 작용합니다. 본 논문에서는 계산을 필요한 부분에만 집중하는 효율적인 비디오 인페인팅 제어 프레임워크인 EditCtrl을 소개합니다. 우리의 접근 방식은 마스킹된 토큰만을 대상으로 작동하여 편집 규모에 비례하는 계산 비용을 산출하는 새로운 지역 비디오 컨텍스트 모듈을 특징으로 합니다. 이렇게 지역 우선 생성은 최소의 오버헤드로 비디오 전체의 컨텍스트 일관성을 보장하는 경량의 시간적 전역 컨텍스트 임베더에 의해 지휘됩니다. EditCtrl은 최신 생성형 편집 방법보다 계산 효율성이 10배 높을 뿐만 아니라, 전체 주의(Full-Attention)를 위해 설계된 방법들 대비 편집 품질까지 향상시킵니다. 마지막으로, EditCtrl이 텍스트 프롬프트를 이용한 다중 영역 편집 및 자기회귀적 콘텐츠 전파와 같은 새로운 기능을 가능하게 하는 방법을 보여줍니다.
English
High-fidelity generative video editing has seen significant quality improvements by leveraging pre-trained video foundation models. However, their computational cost is a major bottleneck, as they are often designed to inefficiently process the full video context regardless of the inpainting mask's size, even for sparse, localized edits. In this paper, we introduce EditCtrl, an efficient video inpainting control framework that focuses computation only where it is needed. Our approach features a novel local video context module that operates solely on masked tokens, yielding a computational cost proportional to the edit size. This local-first generation is then guided by a lightweight temporal global context embedder that ensures video-wide context consistency with minimal overhead. Not only is EditCtrl 10 times more compute efficient than state-of-the-art generative editing methods, it even improves editing quality compared to methods designed with full-attention. Finally, we showcase how EditCtrl unlocks new capabilities, including multi-region editing with text prompts and autoregressive content propagation.