ChatPaper.aiChatPaper

Modifica Video Unificata con Ragionatore Temporale

Unified Video Editing with Temporal Reasoner

December 8, 2025
Autori: Xiangpeng Yang, Ji Xie, Yiyuan Yang, Yan Huang, Min Xu, Qiang Wu
cs.AI

Abstract

I metodi esistenti di editing video affrontano un compromesso critico: i modelli specialistici offrono precisione ma si basano su conoscenze a priori specifiche per il compito, come le maschere, ostacolandone l'unificazione; al contrario, i modelli unificati di apprendimento temporale in-context sono privi di maschere ma mancano di segnali spaziali espliciti, portando a una mappatura debole tra istruzione e regione e a una localizzazione imprecisa. Per risolvere questo conflitto, proponiamo VideoCoF, un nuovo approccio a Catena di Fotogrammi (Chain-of-Frames) ispirato al ragionamento a Catena di Pensiero (Chain-of-Thought). VideoCoF impone una procedura "vedi, ragiona, poi modifica" obbligando il modello di diffusione video a prevedere prima dei token di ragionamento (latenze della regione di modifica) prima di generare i token video target. Questo passaggio esplicito di ragionamento elimina la necessità di maschere fornite dall'utente, raggiungendo al contempo un allineamento preciso tra istruzione e regione e un editing video granulare. Inoltre, introduciamo una strategia di allineamento RoPE che sfrutta questi token di ragionamento per garantire l'allineamento del movimento e abilitare l'estrapolazione della lunghezza oltre la durata dell'addestramento. Dimostriamo che con un costo minimo dei dati di sole 50k coppie video, VideoCoF raggiunge prestazioni all'avanguardia su VideoCoF-Bench, convalidando l'efficienza e l'efficacia del nostro approccio. Il nostro codice, i pesi del modello e i dati sono disponibili su https://github.com/knightyxp/VideoCoF.
English
Existing video editing methods face a critical trade-off: expert models offer precision but rely on task-specific priors like masks, hindering unification; conversely, unified temporal in-context learning models are mask-free but lack explicit spatial cues, leading to weak instruction-to-region mapping and imprecise localization. To resolve this conflict, we propose VideoCoF, a novel Chain-of-Frames approach inspired by Chain-of-Thought reasoning. VideoCoF enforces a ``see, reason, then edit" procedure by compelling the video diffusion model to first predict reasoning tokens (edit-region latents) before generating the target video tokens. This explicit reasoning step removes the need for user-provided masks while achieving precise instruction-to-region alignment and fine-grained video editing. Furthermore, we introduce a RoPE alignment strategy that leverages these reasoning tokens to ensure motion alignment and enable length extrapolation beyond the training duration. We demonstrate that with a minimal data cost of only 50k video pairs, VideoCoF achieves state-of-the-art performance on VideoCoF-Bench, validating the efficiency and effectiveness of our approach. Our code, weight, data are available at https://github.com/knightyxp/VideoCoF.
PDF356December 10, 2025