Регионально-ограниченное контекстное редактирование инструктивных видео
Region-Constraint In-Context Generation for Instructional Video Editing
December 19, 2025
Авторы: Zhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei
cs.AI
Аннотация
Недавно предложенная парадигма контекстной генерации продемонстрировала высокую эффективность в редактировании изображений по инструкциям, сочетая как экономию данных, так и качество синтеза. Однако применение такого контекстного обучения для редактирования видео на основе инструкций является нетривиальной задачей. Без указания областей редактирования результаты могут страдать от проблемы неточного определения редактируемых областей и интерференции токенов между редактируемыми и нередактируемыми зонами в процессе денизинга. Для решения этих проблем мы представляем ReCo — новую парадигму редактирования видео по инструкциям, которая углубляется в моделирование ограничений между редактируемыми и нередактируемыми областями в ходе контекстной генерации. Технически ReCo объединяет исходное и целевое видео по ширине для совместного денизинга. Для калибровки обучения диффузионной модели видео ReCo использует два регуляризационных члена: латентную регуляризацию и регуляризацию внимания, применяемые к латентным представлениям после одного шага обратного денизинга и картам внимания соответственно. Первый увеличивает латентное расхождение редактируемой области между исходным и целевым видео, одновременно уменьшая его для нередактируемых областей, что акцентирует модификацию целевой зоны и снижает нежелательную генерацию контента за её пределами. Второй подавляет внимание токенов в редактируемой области к токенам соответствующей области исходного видео, тем самым mitigating их интерференцию при генерации новых объектов в целевом видео. Кроме того, мы представляем крупномасштабный высококачественный набор данных для редактирования видео ReCo-Data, содержащий 500 тыс. пар «инструкция-видео» для улучшения обучения моделей. Многочисленные эксперименты, проведенные на четырех основных задачах редактирования видео по инструкциям, демонстрируют превосходство нашего предложения.
English
The In-context generation paradigm recently has demonstrated strong power in instructional image editing with both data efficiency and synthesis quality. Nevertheless, shaping such in-context learning for instruction-based video editing is not trivial. Without specifying editing regions, the results can suffer from the problem of inaccurate editing regions and the token interference between editing and non-editing areas during denoising. To address these, we present ReCo, a new instructional video editing paradigm that novelly delves into constraint modeling between editing and non-editing regions during in-context generation. Technically, ReCo width-wise concatenates source and target video for joint denoising. To calibrate video diffusion learning, ReCo capitalizes on two regularization terms, i.e., latent and attention regularization, conducting on one-step backward denoised latents and attention maps, respectively. The former increases the latent discrepancy of the editing region between source and target videos while reducing that of non-editing areas, emphasizing the modification on editing area and alleviating outside unexpected content generation. The latter suppresses the attention of tokens in the editing region to the tokens in counterpart of the source video, thereby mitigating their interference during novel object generation in target video. Furthermore, we propose a large-scale, high-quality video editing dataset, i.e., ReCo-Data, comprising 500K instruction-video pairs to benefit model training. Extensive experiments conducted on four major instruction-based video editing tasks demonstrate the superiority of our proposal.