지시적 비디오 편집을 위한 영역 제약 인컨텍스트 생성
Region-Constraint In-Context Generation for Instructional Video Editing
December 19, 2025
저자: Zhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei
cs.AI
초록
인컨텍스트 생성 패러다임은 최근 데이터 효율성과 합성 품질 모두에서 지시 기반 이미지 편집에 강력한 성능을 입증했습니다. 그러나 지시 기반 비디오 편집을 위한 이러한 인컨텍스트 학습을 구축하는 것은 간단하지 않습니다. 편집 영역을 명시하지 않으면 편집 영역의 부정확함 문제와 디노이징 과정에서 편집 영역과 비편집 영역 간 토큰 간섭이 발생할 수 있습니다. 이를 해결하기 위해 우리는 인컨텍스트 생성 과정 중 편집 영역과 비편집 영역 간 제약 조건 모델링을 새로운 방식으로 탐구하는 새로운 지시 비디오 편집 패러다임인 ReCo를 제안합니다. 기술적으로 ReCo는 소스 비디오와 타겟 비디오를 폭 방향으로 연결하여 공동 디노이징을 수행합니다. 비디오 확산 학습을 보정하기 위해 ReCo는 두 가지 정규화 항, 즉 잠재 정규화와 어텐션 정규화를 활용하며, 이들은 각각 one-step backward 디노이징된 잠재 변수와 어텐션 맵에 적용됩니다. 전자는 소스 비디오와 타겟 비디오 간 편집 영역의 잠재적 차이를 증가시키는 동시에 비편집 영역의 차이는 감소시켜 편집 영역의 수정을 강조하고 외부의 예기치 않은 콘텐츠 생성을 완화합니다. 후자는 편집 영역의 토큰들이 소스 비디오의 대응 영역 토큰들에 주의를 기울이는 것을 억제함으로써 타겟 비디오에서 새로운 객체 생성 시 발생하는 간섭을 완화합니다. 더 나아가, 모델 학습에 도움이 되는 50만 개의 지시-비디오 쌍으로 구성된 대규모 고품질 비디오 편집 데이터셋인 ReCo-Data를 제안합니다. 4가지 주요 지시 기반 비디오 편집 작업에 대한 광범위한 실험을 통해 우리 제안의 우수성을 입증했습니다.
English
The In-context generation paradigm recently has demonstrated strong power in instructional image editing with both data efficiency and synthesis quality. Nevertheless, shaping such in-context learning for instruction-based video editing is not trivial. Without specifying editing regions, the results can suffer from the problem of inaccurate editing regions and the token interference between editing and non-editing areas during denoising. To address these, we present ReCo, a new instructional video editing paradigm that novelly delves into constraint modeling between editing and non-editing regions during in-context generation. Technically, ReCo width-wise concatenates source and target video for joint denoising. To calibrate video diffusion learning, ReCo capitalizes on two regularization terms, i.e., latent and attention regularization, conducting on one-step backward denoised latents and attention maps, respectively. The former increases the latent discrepancy of the editing region between source and target videos while reducing that of non-editing areas, emphasizing the modification on editing area and alleviating outside unexpected content generation. The latter suppresses the attention of tokens in the editing region to the tokens in counterpart of the source video, thereby mitigating their interference during novel object generation in target video. Furthermore, we propose a large-scale, high-quality video editing dataset, i.e., ReCo-Data, comprising 500K instruction-video pairs to benefit model training. Extensive experiments conducted on four major instruction-based video editing tasks demonstrate the superiority of our proposal.