Generazione In-Contesto Vincolata alla Regione per il Montaggio di Video Istruttivi
Region-Constraint In-Context Generation for Instructional Video Editing
December 19, 2025
Autori: Zhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei
cs.AI
Abstract
Il paradigma di generazione in-context ha recentemente dimostrato una notevole efficacia nell'editing di immagini basato su istruzioni, unendo efficienza dei dati e qualità della sintesi. Tuttavia, modellare tale apprendimento in-context per l'editing video guidato da istruzioni non è banale. Senza specificare le regioni da modificare, i risultati possono soffrire del problema di aree di editing imprecise e dell'interferenza tra token delle aree soggette a modifica e di quelle non modificate durante il denoising. Per affrontare ciò, presentiamo ReCo, un nuovo paradigma per l'editing video istruzionale che esplora in modo innovativo la modellazione dei vincoli tra regioni di editing e non-editing durante la generazione in-context. Tecnicamente, ReCo concatena orizzontalmente il video sorgente e quello target per un denoising congiunto. Per calibrare l'apprendimento della diffusione video, ReCo sfrutta due termini di regolarizzazione, ovvero la regolarizzazione latente e quella dell'attenzione, applicati rispettivamente ai latent denoisati di un passo indietro e alle mappe di attenzione. La prima aumenta la discrepanza latente della regione di editing tra i video sorgente e target, riducendo al contempo quella delle aree non modificate, enfatizzando così la modifica nell'area di interesse e alleviando la generazione di contenuti indesiderati all'esterno. La seconda sopprime l'attenzione dei token nella regione di editing verso i token nella controparte del video sorgente, mitigando così la loro interferenza durante la generazione di nuovi oggetti nel video target. Inoltre, proponiamo un dataset di editing video su larga scala e di alta qualità, denominato ReCo-Data, comprendente 500K coppie istruzione-video per favorire l'addestramento del modello. Esperimenti estensivi condotti su quattro principali task di editing video basato su istruzioni dimostrano la superiorità della nostra proposta.
English
The In-context generation paradigm recently has demonstrated strong power in instructional image editing with both data efficiency and synthesis quality. Nevertheless, shaping such in-context learning for instruction-based video editing is not trivial. Without specifying editing regions, the results can suffer from the problem of inaccurate editing regions and the token interference between editing and non-editing areas during denoising. To address these, we present ReCo, a new instructional video editing paradigm that novelly delves into constraint modeling between editing and non-editing regions during in-context generation. Technically, ReCo width-wise concatenates source and target video for joint denoising. To calibrate video diffusion learning, ReCo capitalizes on two regularization terms, i.e., latent and attention regularization, conducting on one-step backward denoised latents and attention maps, respectively. The former increases the latent discrepancy of the editing region between source and target videos while reducing that of non-editing areas, emphasizing the modification on editing area and alleviating outside unexpected content generation. The latter suppresses the attention of tokens in the editing region to the tokens in counterpart of the source video, thereby mitigating their interference during novel object generation in target video. Furthermore, we propose a large-scale, high-quality video editing dataset, i.e., ReCo-Data, comprising 500K instruction-video pairs to benefit model training. Extensive experiments conducted on four major instruction-based video editing tasks demonstrate the superiority of our proposal.