ChatPaper.aiChatPaper

Génération contextuelle sous contrainte régionale pour l'édition vidéo pédagogique

Region-Constraint In-Context Generation for Instructional Video Editing

December 19, 2025
papers.authors: Zhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei
cs.AI

papers.abstract

Le paradigme de génération contextuelle a récemment démontré une forte capacité en matière d'édition d'images par instruction, alliant efficacité des données et qualité de synthèse. Néanmoins, l'adaptation de cet apprentissage contextuel à l'édition vidéo basée sur des instructions n'est pas triviale. Sans spécification des régions à éditer, les résultats peuvent souffrir d'un problème de délimitation imprécise des zones d'édition et d'interférences entre les tokens des zones éditées et non éditées lors du débruitage. Pour résoudre ces problèmes, nous présentons ReCo, un nouveau paradigme d'édition vidéo par instruction qui explore de manière novatrice la modélisation des contraintes entre les régions éditées et non éditées durant la génération contextuelle. Techniquement, ReCo concatène horizontalement la vidéo source et la vidéo cible pour un débruitage conjoint. Pour calibrer l'apprentissage par diffusion vidéo, ReCo capitalise sur deux termes de régularisation, à savoir une régularisation latente et une régularisation attentionnelle, appliquées respectivement sur les latents débruités à un pas en arrière et sur les cartes d'attention. La première augmente la divergence latente de la région d'édition entre les vidéos source et cible tout en réduisant celle des zones non éditées, accentuant ainsi la modification de la zone d'édition et limitant la génération de contenu indésirable à l'extérieur. La seconde supprime l'attention des tokens de la région d'édition vers les tokens correspondants de la vidéo source, atténuant ainsi leur interférence durant la génération de nouveaux objets dans la vidéo cible. Par ailleurs, nous proposons un jeu de données d'édition vidéo à grande échelle et de haute qualité, ReCo-Data, comprenant 500 000 paires instruction-vidéo pour favoriser l'entraînement des modèles. Des expériences approfondies menées sur quatre tâches majeures d'édition vidéo par instruction démontrent la supériorité de notre proposition.
English
The In-context generation paradigm recently has demonstrated strong power in instructional image editing with both data efficiency and synthesis quality. Nevertheless, shaping such in-context learning for instruction-based video editing is not trivial. Without specifying editing regions, the results can suffer from the problem of inaccurate editing regions and the token interference between editing and non-editing areas during denoising. To address these, we present ReCo, a new instructional video editing paradigm that novelly delves into constraint modeling between editing and non-editing regions during in-context generation. Technically, ReCo width-wise concatenates source and target video for joint denoising. To calibrate video diffusion learning, ReCo capitalizes on two regularization terms, i.e., latent and attention regularization, conducting on one-step backward denoised latents and attention maps, respectively. The former increases the latent discrepancy of the editing region between source and target videos while reducing that of non-editing areas, emphasizing the modification on editing area and alleviating outside unexpected content generation. The latter suppresses the attention of tokens in the editing region to the tokens in counterpart of the source video, thereby mitigating their interference during novel object generation in target video. Furthermore, we propose a large-scale, high-quality video editing dataset, i.e., ReCo-Data, comprising 500K instruction-video pairs to benefit model training. Extensive experiments conducted on four major instruction-based video editing tasks demonstrate the superiority of our proposal.
PDF392December 24, 2025