ChatPaper.aiChatPaper

命令型動画編集のための領域制約付きインコンテキスト生成

Region-Constraint In-Context Generation for Instructional Video Editing

December 19, 2025
著者: Zhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei
cs.AI

要旨

近年、インコンテキスト生成パラダイムは、データ効率と合成品質の両面で優れた指示付き画像編集の能力を示しています。しかし、指示ベースの動画編集においてこのようなインコンテキスト学習を構築することは容易ではありません。編集領域を特定しない場合、不正確な編集領域の問題や、ノイズ除去過程における編集領域と非編集領域間のトークン干渉が生じる可能性があります。これらの課題に対処するため、我々はReCoを提案します。これはインコンテキスト生成中に編集領域と非編集領域間の制約モデリングを新たに探求する指示付き動画編集パラダイムです。技術的には、ReCoはソース動画とターゲット動画を横方向に連結して共同ノイズ除去を行います。動画拡散学習を較正するために、ReCoは2つの正則化項、すなわち潜在変数正則化と注意機構正則化を活用し、それぞれ1ステップ後方ノイズ除去された潜在変数と注意マップに適用します。前者は、ソース動画とターゲット動画間の編集領域の潜在変数差異を増大させると同時に非編集領域の差異を減少させ、編集領域の修正を強調し外部での意図しないコンテンツ生成を軽減します。後者は、編集領域のトークンがソース動画の対応領域のトークンに向ける注意を抑制し、ターゲット動画における新規オブジェクト生成時の干渉を緩和します。さらに、モデル訓練に資するため50万の指示-動画ペアからなる大規模高品質な動画編集データセットReCo-Dataを提案します。4つの主要な指示ベース動画編集タスクにおける大規模実験により、本提案の優位性が実証されました。
English
The In-context generation paradigm recently has demonstrated strong power in instructional image editing with both data efficiency and synthesis quality. Nevertheless, shaping such in-context learning for instruction-based video editing is not trivial. Without specifying editing regions, the results can suffer from the problem of inaccurate editing regions and the token interference between editing and non-editing areas during denoising. To address these, we present ReCo, a new instructional video editing paradigm that novelly delves into constraint modeling between editing and non-editing regions during in-context generation. Technically, ReCo width-wise concatenates source and target video for joint denoising. To calibrate video diffusion learning, ReCo capitalizes on two regularization terms, i.e., latent and attention regularization, conducting on one-step backward denoised latents and attention maps, respectively. The former increases the latent discrepancy of the editing region between source and target videos while reducing that of non-editing areas, emphasizing the modification on editing area and alleviating outside unexpected content generation. The latter suppresses the attention of tokens in the editing region to the tokens in counterpart of the source video, thereby mitigating their interference during novel object generation in target video. Furthermore, we propose a large-scale, high-quality video editing dataset, i.e., ReCo-Data, comprising 500K instruction-video pairs to benefit model training. Extensive experiments conducted on four major instruction-based video editing tasks demonstrate the superiority of our proposal.
PDF392December 24, 2025