ChatPaper.aiChatPaper

Édition Vidéo Unifiée avec Raisonneur Temporel

Unified Video Editing with Temporal Reasoner

December 8, 2025
papers.authors: Xiangpeng Yang, Ji Xie, Yiyuan Yang, Yan Huang, Min Xu, Qiang Wu
cs.AI

papers.abstract

Les méthodes existantes d'édition vidéo sont confrontées à un compromis critique : les modèles experts offrent de la précision mais reposent sur des connaissances préalables spécifiques aux tâches, comme les masques, ce qui entrave leur unification ; à l'inverse, les modèles unifiés d'apprentissage temporel en contexte sont exempts de masques mais manquent d'indices spatiaux explicites, conduisant à un mappage faible entre les instructions et les régions ainsi qu'à une localisation imprécise. Pour résoudre ce conflit, nous proposons VideoCoF, une nouvelle approche de Chaîne d'Images inspirée du raisonnement en Chaîne de Pensée. VideoCoF impose une procédure « voir, raisonner, puis éditer » en forçant le modèle de diffusion vidéo à prédire d'abord des jetons de raisonnement (latents de région d'édition) avant de générer les jetons vidéo cibles. Cette étape de raisonnement explicite supprime le besoin de masques fournis par l'utilisateur tout en permettant un alignement précis entre les instructions et les régions et une édition vidéo fine. De plus, nous introduisons une stratégie d'alignement RoPE qui exploite ces jetons de raisonnement pour garantir l'alignement du mouvement et permettre une extrapolation de la durée au-delà de la période d'entraînement. Nous démontrons qu'avec un coût de données minimal de seulement 50 000 paires vidéo, VideoCoF atteint des performances de pointe sur VideoCoF-Bench, validant l'efficacité et l'efficience de notre approche. Notre code, nos poids et nos données sont disponibles à l'adresse https://github.com/knightyxp/VideoCoF.
English
Existing video editing methods face a critical trade-off: expert models offer precision but rely on task-specific priors like masks, hindering unification; conversely, unified temporal in-context learning models are mask-free but lack explicit spatial cues, leading to weak instruction-to-region mapping and imprecise localization. To resolve this conflict, we propose VideoCoF, a novel Chain-of-Frames approach inspired by Chain-of-Thought reasoning. VideoCoF enforces a ``see, reason, then edit" procedure by compelling the video diffusion model to first predict reasoning tokens (edit-region latents) before generating the target video tokens. This explicit reasoning step removes the need for user-provided masks while achieving precise instruction-to-region alignment and fine-grained video editing. Furthermore, we introduce a RoPE alignment strategy that leverages these reasoning tokens to ensure motion alignment and enable length extrapolation beyond the training duration. We demonstrate that with a minimal data cost of only 50k video pairs, VideoCoF achieves state-of-the-art performance on VideoCoF-Bench, validating the efficiency and effectiveness of our approach. Our code, weight, data are available at https://github.com/knightyxp/VideoCoF.
PDF356December 10, 2025