ChatPaper.aiChatPaper

FFP-300K: 일반화 가능한 비디오 편집을 위한 첫 프레임 전파 기술 확장

FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

January 5, 2026
저자: Xijie Huang, Chengming Xu, Donghao Luo, Xiaobin Hu, Peng Tang, Xu Peng, Jiangning Zhang, Chengjie Wang, Yanwei Fu
cs.AI

초록

퍼스트-프레임 전파(FFP)는 제어 가능한 비디오 편집에 유망한 패러다임을 제공하지만, 기존 방법은 번거로운 런타임 안내에 대한 의존성으로 인해 한계를 보입니다. 우리는 이러한 한계의 근본 원인이 현재 학습 데이터셋의 부적합성에 있다고 파악했습니다. 기존 데이터셋은 너무 짧고 저해상도이며 강력한 시간적 사전 지식을 학습시키기에 필요한 작업 다양성이 부족한 경우가 많습니다. 이러한 근본적인 데이터 격차를 해결하기 위해, 우리는 먼저 FFP-300K라는 새로운 대규모 데이터셋을 소개합니다. 이 데이터셋은 720p 해상도에 81프레임 길이의 30만 개의 고화질 비디오 쌍으로 구성되었으며, 다양한 지역 및 전역 편집을 위한 원칙적인 이중 트랙 파이프라인을 통해 구축되었습니다. 이 데이터셋을 바탕으로, 우리는 첫 프레임 외관 유지와 원본 비디오 모션 보존 사이의 중요한 긴장 관계를 해결하여 진정한 무안내(guidance-free) FFP를 위한 새로운 프레임워크를 제안합니다. 아키텍처 측면에서는 외관 참조와 모션 참조를 분리하기 위해 위치 인코딩을 동적으로 재매핑하는 Adaptive Spatio-Temporal RoPE(AST-RoPE)를 도입합니다. 목적 함수 수준에서는 정체성 전파 작업이 강력한 정규화자 역할을 하는 자기 지식 증류 전략을 활용하여 장기간의 시간적 안정성을 보장하고 의미론적 드리프트를 방지합니다. EditVerseBench 벤치마크에서의 포괄적인 실험을 통해 우리 방법이 기존 학술 및 상용 모델들을 크게 능가하며, 이러한 경쟁자 대비 약 0.2점의 PickScore 및 0.3점의 VLM 점수 향상을 달성함을 입증했습니다.
English
First-Frame Propagation (FFP) offers a promising paradigm for controllable video editing, but existing methods are hampered by a reliance on cumbersome run-time guidance. We identify the root cause of this limitation as the inadequacy of current training datasets, which are often too short, low-resolution, and lack the task diversity required to teach robust temporal priors. To address this foundational data gap, we first introduce FFP-300K, a new large-scale dataset comprising 300K high-fidelity video pairs at 720p resolution and 81 frames in length, constructed via a principled two-track pipeline for diverse local and global edits. Building on this dataset, we propose a novel framework designed for true guidance-free FFP that resolves the critical tension between maintaining first-frame appearance and preserving source video motion. Architecturally, we introduce Adaptive Spatio-Temporal RoPE (AST-RoPE), which dynamically remaps positional encodings to disentangle appearance and motion references. At the objective level, we employ a self-distillation strategy where an identity propagation task acts as a powerful regularizer, ensuring long-term temporal stability and preventing semantic drift. Comprehensive experiments on the EditVerseBench benchmark demonstrate that our method significantly outperforming existing academic and commercial models by receiving about 0.2 PickScore and 0.3 VLM score improvement against these competitors.
PDF21January 8, 2026