ChatPaper.aiChatPaper

Generación en Contexto con Restricción de Región para la Edición de Videos Instructivos

Region-Constraint In-Context Generation for Instructional Video Editing

December 19, 2025
Autores: Zhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei
cs.AI

Resumen

El paradigma de generación en contexto ha demostrado recientemente un gran potencial en la edición de imágenes por instrucciones, destacando tanto en eficiencia de datos como en calidad de síntesis. Sin embargo, adaptar dicho aprendizaje en contexto para la edición de vídeo basada en instrucciones no es trivial. Sin especificar las regiones de edición, los resultados pueden sufrir de imprecisión en dichas áreas y de interferencia entre tokens de zonas editadas y no editadas durante la eliminación de ruido. Para abordar estos problemas, presentamos ReCo, un nuevo paradigma de edición de vídeo por instrucciones que explora de forma novedosa el modelado de restricciones entre regiones editadas y no editadas durante la generación en contexto. Técnicamente, ReCo concatena horizontalmente el vídeo fuente y el objetivo para realizar una eliminación de ruido conjunta. Para calibrar el aprendizaje de difusión de vídeo, ReCo emplea dos términos de regularización: regularización latente y de atención, aplicados respectivamente sobre los latentes desruidificados en un paso hacia atrás y los mapas de atención. El primero incrementa la discrepancia latente de la región de edición entre los vídeos fuente y objetivo mientras reduce la de las áreas no editadas, enfatizando así la modificación en la zona de edición y mitigando la generación de contenido no deseado fuera de ella. El segundo suprime la atención de los tokens en la región de edición hacia los tokens correspondientes del vídeo fuente, reduciendo así su interferencia durante la generación de nuevos objetos en el vídeo objetivo. Además, proponemos un conjunto de datos de edición de vídeo a gran escala y alta calidad, ReCo-Data, que incluye 500.000 pares de instrucción-vídeo para beneficiar el entrenamiento del modelo. Experimentos exhaustivos realizados en cuatro tareas principales de edición de vídeo por instrucciones demuestran la superioridad de nuestra propuesta.
English
The In-context generation paradigm recently has demonstrated strong power in instructional image editing with both data efficiency and synthesis quality. Nevertheless, shaping such in-context learning for instruction-based video editing is not trivial. Without specifying editing regions, the results can suffer from the problem of inaccurate editing regions and the token interference between editing and non-editing areas during denoising. To address these, we present ReCo, a new instructional video editing paradigm that novelly delves into constraint modeling between editing and non-editing regions during in-context generation. Technically, ReCo width-wise concatenates source and target video for joint denoising. To calibrate video diffusion learning, ReCo capitalizes on two regularization terms, i.e., latent and attention regularization, conducting on one-step backward denoised latents and attention maps, respectively. The former increases the latent discrepancy of the editing region between source and target videos while reducing that of non-editing areas, emphasizing the modification on editing area and alleviating outside unexpected content generation. The latter suppresses the attention of tokens in the editing region to the tokens in counterpart of the source video, thereby mitigating their interference during novel object generation in target video. Furthermore, we propose a large-scale, high-quality video editing dataset, i.e., ReCo-Data, comprising 500K instruction-video pairs to benefit model training. Extensive experiments conducted on four major instruction-based video editing tasks demonstrate the superiority of our proposal.
PDF392December 24, 2025