FFP-300K: Schaalvergroting van First-Frame Propagatie voor Generaliseerbare Videobewerking
FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing
January 5, 2026
Auteurs: Xijie Huang, Chengming Xu, Donghao Luo, Xiaobin Hu, Peng Tang, Xu Peng, Jiangning Zhang, Chengjie Wang, Yanwei Fu
cs.AI
Samenvatting
First-Frame Propagation (FFP) biedt een veelbelovend paradigma voor controleerbare videobewerking, maar bestaande methoden worden belemmerd door een afhankelijkheid van omslachtige runtime-guidance. Wij identificeren de oorzaak van deze beperking in de ontoereikendheid van huidige traininsdatasets, die vaak te kort, van lage resolutie zijn en niet over de vereiste taakdiversiteit beschikken om robuuste temporele priors aan te leren. Om dit fundamentele datatekort aan te pakken, introduceren we eerst FFP-300K, een nieuwe grootschalige dataset bestaande uit 300K hoogwaardige videoparen met een resolutie van 720p en een lengte van 81 frames, geconstrueerd via een principieel tweesporenproces voor diverse lokale en globale bewerkingen. Voortbouwend op deze dataset stellen we een nieuw raamwerk voor dat ontworpen is voor werkelijk guidance-vrije FFP en de kritische spanning oplost tussen het behouden van het eerste-frame-uiterlijk en het bewaren van de bronvideobeweging. Architecturaal introduceren we Adaptive Spatio-Temporal RoPE (AST-RoPE), dat positionele coderingen dynamisch hermapt om verwijzingen naar uiterlijk en beweging te ontwarren. Op objectiefniveau hanteren we een zelfdistillatiestrategie waarbij een identiteitspropagatietaak fungeert als een krachtige regularisator, die langetermijntemporele stabiliteit waarborgt en semantische drift voorkomt. Uitgebreide experimenten op de EditVerseBench-benchmark tonen aan dat onze methode aanzienlijk beter presteert dan bestaande academische en commerciële modellen, met een verbetering van ongeveer 0,2 PickScore en 0,3 VLM-score ten opzichte van deze concurrenten.
English
First-Frame Propagation (FFP) offers a promising paradigm for controllable video editing, but existing methods are hampered by a reliance on cumbersome run-time guidance. We identify the root cause of this limitation as the inadequacy of current training datasets, which are often too short, low-resolution, and lack the task diversity required to teach robust temporal priors. To address this foundational data gap, we first introduce FFP-300K, a new large-scale dataset comprising 300K high-fidelity video pairs at 720p resolution and 81 frames in length, constructed via a principled two-track pipeline for diverse local and global edits. Building on this dataset, we propose a novel framework designed for true guidance-free FFP that resolves the critical tension between maintaining first-frame appearance and preserving source video motion. Architecturally, we introduce Adaptive Spatio-Temporal RoPE (AST-RoPE), which dynamically remaps positional encodings to disentangle appearance and motion references. At the objective level, we employ a self-distillation strategy where an identity propagation task acts as a powerful regularizer, ensuring long-term temporal stability and preventing semantic drift. Comprehensive experiments on the EditVerseBench benchmark demonstrate that our method significantly outperforming existing academic and commercial models by receiving about 0.2 PickScore and 0.3 VLM score improvement against these competitors.