ChatPaper.aiChatPaper

Kontextgestützte Generierung mit Regionsbeschränkung für die Bearbeitung von Instruktionsvideos

Region-Constraint In-Context Generation for Instructional Video Editing

December 19, 2025
papers.authors: Zhongwei Zhang, Fuchen Long, Wei Li, Zhaofan Qiu, Wu Liu, Ting Yao, Tao Mei
cs.AI

papers.abstract

Das Paradigma der In-context-Generierung hat kürzlich sowohl in Bezug auf Dateneffizienz als auch auf die Synthesequalität eine starke Leistungsfähigkeit beim instruktionsbasierten Bildbearbeitung demonstriert. Dennoch ist die Übertragung dieses In-context-Lernens auf die instruktionsbasierte Videobearbeitung nicht trivial. Ohne die Bearbeitungsregionen genau zu spezifizieren, können die Ergebnisse unter dem Problem ungenauer Bearbeitungsbereiche und der Token-Interferenz zwischen Bearbeitungs- und Nicht-Bearbeitungsbereichen während der Denoisierung leiden. Um diese Probleme zu adressieren, stellen wir ReCo vor, ein neues Paradigma für die instruktionsbasierte Videobearbeitung, das neuartig die Modellierung von Constraints zwischen Bearbeitungs- und Nicht-Bearbeitungsregionen während der In-context-Generierung untersucht. Technisch gesehen verkettet ReCo Quell- und Zielvideo seitenweise für eine gemeinsame Denoisierung. Um das Video-Diffusionslernen zu kalibrieren, nutzt ReCo zwei Regularisierungsterme, nämlich latente Regularisierung und Attention-Regularisierung, die auf den jeweils einen Schritt zurückgerechneten denoised Latents bzw. Attention-Maps operieren. Ersteres erhöht die latente Diskrepanz der Bearbeitungsregion zwischen Quell- und Zielvideos, während es die der Nicht-Bearbeitungsbereiche verringert, um die Modifikation im Bearbeitungsbereich zu betonen und unerwünschte Inhaltsgenerierung außerhalb zu reduzieren. Letzteres unterdrückt die Aufmerksamkeit von Tokens in der Bearbeitungsregion auf Tokens im Gegenstück des Quellvideos, wodurch deren Interferenz während der Generierung neuer Objekte im Zielvideo gemildert wird. Darüber hinaus schlagen wir einen großen, hochwertigen Videobearbeitungsdatensatz vor, d.h. ReCo-Data, der 500.000 Instruktions-Video-Paare umfasst, um das Modelltraining zu unterstützen. Umfangreiche Experimente, die an vier wichtigen instruktionsbasierten Videobearbeitungsaufgaben durchgeführt wurden, demonstrieren die Überlegenheit unseres Ansatzes.
English
The In-context generation paradigm recently has demonstrated strong power in instructional image editing with both data efficiency and synthesis quality. Nevertheless, shaping such in-context learning for instruction-based video editing is not trivial. Without specifying editing regions, the results can suffer from the problem of inaccurate editing regions and the token interference between editing and non-editing areas during denoising. To address these, we present ReCo, a new instructional video editing paradigm that novelly delves into constraint modeling between editing and non-editing regions during in-context generation. Technically, ReCo width-wise concatenates source and target video for joint denoising. To calibrate video diffusion learning, ReCo capitalizes on two regularization terms, i.e., latent and attention regularization, conducting on one-step backward denoised latents and attention maps, respectively. The former increases the latent discrepancy of the editing region between source and target videos while reducing that of non-editing areas, emphasizing the modification on editing area and alleviating outside unexpected content generation. The latter suppresses the attention of tokens in the editing region to the tokens in counterpart of the source video, thereby mitigating their interference during novel object generation in target video. Furthermore, we propose a large-scale, high-quality video editing dataset, i.e., ReCo-Data, comprising 500K instruction-video pairs to benefit model training. Extensive experiments conducted on four major instruction-based video editing tasks demonstrate the superiority of our proposal.
PDF392December 24, 2025