시간적 추론을 통한 통합 비디오 편집
Unified Video Editing with Temporal Reasoner
December 8, 2025
저자: Xiangpeng Yang, Ji Xie, Yiyuan Yang, Yan Huang, Min Xu, Qiang Wu
cs.AI
초록
기존 비디오 편집 방법은 중요한 절충점에 직면해 있습니다: 전문가 모델은 정밀도를 제공하지만 마스크와 같은 작업별 사전 정보에 의존하여 통합을 방해하고, 반대로 통합된 시간적 맥락 학습 모델은 마스크가 필요 없지만 명시적인 공간적 단서가 부족하여 약한 지시-영역 매핑과 부정확한 지역화를 초래합니다. 이러한 갈등을 해결하기 위해 우리는 Chain-of-Thought 추론에서 영감을 받은 새로운 Chain-of-Frames 접근법인 VideoCoF를 제안합니다. VideoCoF는 비디오 확산 모델이 대상 비디오 토큰을 생성하기 전에 먼저 추론 토큰(편집 영역 잠재 변수)을 예측하도록 강제하여 "보고, 추론한 후 편집" 절차를 적용합니다. 이 명시적 추론 단계는 사용자 제공 마스크가 필요 없으면서도 정확한 지시-영역 정렬과 세밀한 비디오 편집을 가능하게 합니다. 더 나아가, 우리는 이러한 추론 토큰을 활용하여 모션 정렬을 보장하고 훈련 기간을 초과하는 길이 외삽을 가능하게 하는 RoPE 정렬 전략을 도입합니다. 단 50,000개의 비디오 쌍이라는 최소한의 데이터 비용으로 VideoCoF가 VideoCoF-Bench에서 최첨단 성능을 달성하여 우리 접근법의 효율성과 효과성을 입증합니다. 우리의 코드, 가중치, 데이터는 https://github.com/knightyxp/VideoCoF에서 이용할 수 있습니다.
English
Existing video editing methods face a critical trade-off: expert models offer precision but rely on task-specific priors like masks, hindering unification; conversely, unified temporal in-context learning models are mask-free but lack explicit spatial cues, leading to weak instruction-to-region mapping and imprecise localization. To resolve this conflict, we propose VideoCoF, a novel Chain-of-Frames approach inspired by Chain-of-Thought reasoning. VideoCoF enforces a ``see, reason, then edit" procedure by compelling the video diffusion model to first predict reasoning tokens (edit-region latents) before generating the target video tokens. This explicit reasoning step removes the need for user-provided masks while achieving precise instruction-to-region alignment and fine-grained video editing. Furthermore, we introduce a RoPE alignment strategy that leverages these reasoning tokens to ensure motion alignment and enable length extrapolation beyond the training duration. We demonstrate that with a minimal data cost of only 50k video pairs, VideoCoF achieves state-of-the-art performance on VideoCoF-Bench, validating the efficiency and effectiveness of our approach. Our code, weight, data are available at https://github.com/knightyxp/VideoCoF.