ChatPaper.aiChatPaper

Regiogebonden In-Context Generatie voor Instructievideo-bewerking

Region-Constraint In-Context Generation for Instructional Video Editing

December 19, 2025
Auteurs: Zhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei
cs.AI

Samenvatting

Het in-context generatieparadigma heeft recentelijk zijn kracht getoond bij instructiegebaseerde beeldbewerking, zowel wat betreft data-efficiëntie als synthesekwaliteit. Het toepassen van dergelijk in-context leren op instructiegebaseerde videobewerking is echter niet triviaal. Zonder specificatie van bewerkingsgebieden kunnen de resultaten lijden onder onnauwkeurige bewerkingsregio's en tokeninterferentie tussen bewerkings- en niet-bewerkingsgebieden tijdens denoisen. Om deze problemen aan te pakken, presenteren wij ReCo, een nieuw paradigma voor instructiegebaseerde videobewerking dat op een nieuwe manier constraintmodellering tussen bewerkings- en niet-bewerkingsgebieden tijdens in-context generatie onderzoekt. Technisch gezien concateneert ReCo bron- en doelvideo in de breedte voor gezamenlijk denoisen. Om videodiffusieleren te kalibreren, benut ReCo twee regularisatietermen, namelijk latente regularisatie en aandachtregularisatie, die respectievelijk worden toegepast op één-stap-terug gedenoiste latente representaties en aandachtmaps. De eerste vergroot het latente verschil van het bewerkingsgebied tussen bron- en doelvideo's, terwijl het dat van niet-bewerkingsgebieden verkleint, waardoor de modificatie van het bewerkingsgebied wordt benadrukt en onverwachte contentgeneratie daarbuiten wordt verminderd. De tweede onderdrukt de aandacht van tokens in het bewerkingsgebied voor tokens in het tegenhangergebied van de bronvideo, waardoor hun interferentie tijdens de generatie van nieuwe objecten in de doelvideo wordt gemitigeerd. Verder stellen wij een grootschalige, hoogwaardige videobewerkingsdataset voor, genaamd ReCo-Data, bestaande uit 500K instructie-videoparen om modeltraining te bevorderen. Uitgebreide experimenten uitgevoerd op vier belangrijke instructiegebaseerde videobewerkingstaken demonstreren de superioriteit van onze methode.
English
The In-context generation paradigm recently has demonstrated strong power in instructional image editing with both data efficiency and synthesis quality. Nevertheless, shaping such in-context learning for instruction-based video editing is not trivial. Without specifying editing regions, the results can suffer from the problem of inaccurate editing regions and the token interference between editing and non-editing areas during denoising. To address these, we present ReCo, a new instructional video editing paradigm that novelly delves into constraint modeling between editing and non-editing regions during in-context generation. Technically, ReCo width-wise concatenates source and target video for joint denoising. To calibrate video diffusion learning, ReCo capitalizes on two regularization terms, i.e., latent and attention regularization, conducting on one-step backward denoised latents and attention maps, respectively. The former increases the latent discrepancy of the editing region between source and target videos while reducing that of non-editing areas, emphasizing the modification on editing area and alleviating outside unexpected content generation. The latter suppresses the attention of tokens in the editing region to the tokens in counterpart of the source video, thereby mitigating their interference during novel object generation in target video. Furthermore, we propose a large-scale, high-quality video editing dataset, i.e., ReCo-Data, comprising 500K instruction-video pairs to benefit model training. Extensive experiments conducted on four major instruction-based video editing tasks demonstrate the superiority of our proposal.
PDF392December 24, 2025