Edición Unificada de Video con Razonador Temporal
Unified Video Editing with Temporal Reasoner
December 8, 2025
Autores: Xiangpeng Yang, Ji Xie, Yiyuan Yang, Yan Huang, Min Xu, Qiang Wu
cs.AI
Resumen
Los métodos existentes de edición de vídeo enfrentan una disyuntiva crítica: los modelos expertos ofrecen precisión pero dependen de premisas específicas de la tarea, como máscaras, lo que dificulta su unificación; por el contrario, los modelos unificados de aprendizaje temporal en contexto (in-context learning) no requieren máscaras pero carecen de señales espaciales explícitas, lo que conduce a un mapeo débil entre la instrucción y la región y a una localización imprecisa. Para resolver este conflicto, proponemos VideoCoF, un novedoso enfoque de Cadena-de-Fotogramas (Chain-of-Frames) inspirado en el razonamiento de Cadena-de-Pensamientos (Chain-of-Thought). VideoCoF impone un procedimiento de "ver, razonar, luego editar" al obligar al modelo de difusión de vídeo a predecir primero tokens de razonamiento (latentes de la región a editar) antes de generar los tokens del vídeo objetivo. Este paso de razonamiento explícito elimina la necesidad de máscaras proporcionadas por el usuario, logrando al mismo tiempo una alineación precisa entre la instrucción y la región y una edición de vídeo de grano fino. Además, introducimos una estrategia de alineación RoPE que aprovecha estos tokens de razonamiento para garantizar la alineación del movimiento y permitir la extrapolación de longitud más allá de la duración del entrenamiento. Demostramos que con un coste de datos mínimo de solo 50k pares de vídeo, VideoCoF alcanza un rendimiento state-of-the-art en VideoCoF-Bench, validando la eficiencia y efectividad de nuestro enfoque. Nuestro código, pesos y datos están disponibles en https://github.com/knightyxp/VideoCoF.
English
Existing video editing methods face a critical trade-off: expert models offer precision but rely on task-specific priors like masks, hindering unification; conversely, unified temporal in-context learning models are mask-free but lack explicit spatial cues, leading to weak instruction-to-region mapping and imprecise localization. To resolve this conflict, we propose VideoCoF, a novel Chain-of-Frames approach inspired by Chain-of-Thought reasoning. VideoCoF enforces a ``see, reason, then edit" procedure by compelling the video diffusion model to first predict reasoning tokens (edit-region latents) before generating the target video tokens. This explicit reasoning step removes the need for user-provided masks while achieving precise instruction-to-region alignment and fine-grained video editing. Furthermore, we introduce a RoPE alignment strategy that leverages these reasoning tokens to ensure motion alignment and enable length extrapolation beyond the training duration. We demonstrate that with a minimal data cost of only 50k video pairs, VideoCoF achieves state-of-the-art performance on VideoCoF-Bench, validating the efficiency and effectiveness of our approach. Our code, weight, data are available at https://github.com/knightyxp/VideoCoF.