Edição de Vídeo Unificada com Raciocinador Temporal
Unified Video Editing with Temporal Reasoner
December 8, 2025
Autores: Xiangpeng Yang, Ji Xie, Yiyuan Yang, Yan Huang, Min Xu, Qiang Wu
cs.AI
Resumo
Os métodos existentes de edição de vídeo enfrentam um dilema crítico: modelos especializados oferecem precisão, mas dependem de pré-requisitos específicos de tarefa, como máscaras, dificultando a unificação; por outro lado, modelos unificados de aprendizado temporal in-context são livres de máscaras, mas carecem de pistas espaciais explícitas, resultando em um mapeamento fraco entre instrução e região e em uma localização imprecisa. Para resolver este conflito, propomos o VideoCoF, uma nova abordagem Chain-of-Frames (Cadeia de Quadros) inspirada no raciocínio Chain-of-Thought (Cadeia de Pensamento). O VideoCoF impõe um procedimento "ver, raciocinar, depois editar" ao compelir o modelo de difusão de vídeo a primeiro prever tokens de raciocínio (latentes da região de edição) antes de gerar os tokens de vídeo alvo. Esta etapa de raciocínio explícito elimina a necessidade de máscaras fornecidas pelo usuário, ao mesmo tempo que alcança um alinhamento preciso entre instrução e região e uma edição de vídeo refinada. Além disso, introduzimos uma estratégia de alinhamento RoPE que aproveita esses tokens de raciocínio para garantir o alinhamento de movimento e permitir a extrapolação de duração além do período de treinamento. Demonstramos que, com um custo de dados mínimo de apenas 50 mil pares de vídeo, o VideoCoF alcança um desempenho state-of-the-art no VideoCoF-Bench, validando a eficiência e a eficácia da nossa abordagem. Nosso código, pesos e dados estão disponíveis em https://github.com/knightyxp/VideoCoF.
English
Existing video editing methods face a critical trade-off: expert models offer precision but rely on task-specific priors like masks, hindering unification; conversely, unified temporal in-context learning models are mask-free but lack explicit spatial cues, leading to weak instruction-to-region mapping and imprecise localization. To resolve this conflict, we propose VideoCoF, a novel Chain-of-Frames approach inspired by Chain-of-Thought reasoning. VideoCoF enforces a ``see, reason, then edit" procedure by compelling the video diffusion model to first predict reasoning tokens (edit-region latents) before generating the target video tokens. This explicit reasoning step removes the need for user-provided masks while achieving precise instruction-to-region alignment and fine-grained video editing. Furthermore, we introduce a RoPE alignment strategy that leverages these reasoning tokens to ensure motion alignment and enable length extrapolation beyond the training duration. We demonstrate that with a minimal data cost of only 50k video pairs, VideoCoF achieves state-of-the-art performance on VideoCoF-Bench, validating the efficiency and effectiveness of our approach. Our code, weight, data are available at https://github.com/knightyxp/VideoCoF.