ContextFlow : Édition d'objets vidéo sans apprentissage via un enrichissement contextuel adaptatif
ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment
September 22, 2025
papers.authors: Yiyang Chen, Xuanhua He, Xiujun Ma, Yue Ma
cs.AI
papers.abstract
L'édition d'objets vidéo sans apprentissage vise à réaliser des manipulations précises au niveau des objets, incluant l'insertion, l'échange et la suppression d'objets. Cependant, elle rencontre des défis majeurs pour maintenir la fidélité et la cohérence temporelle. Les méthodes existantes, souvent conçues pour des architectures U-Net, souffrent de deux limitations principales : une inversion imprécise due à l'utilisation de solveurs de premier ordre, et des conflits contextuels causés par un remplacement grossier et "dur" des caractéristiques. Ces problèmes sont encore plus complexes dans les Transformers de Diffusion (DiTs), où l'inadéquation des heuristiques de sélection de couches antérieures rend difficile un guidage efficace. Pour surmonter ces limitations, nous introduisons ContextFlow, un nouveau cadre sans apprentissage pour l'édition d'objets vidéo basée sur les DiTs. En détail, nous utilisons d'abord un solveur Rectified Flow d'ordre élevé pour établir une base solide d'édition. Le cœur de notre cadre est l'Enrichissement Contextuel Adaptatif (pour spécifier quoi éditer), un mécanisme qui résout les conflits contextuels. Au lieu de remplacer les caractéristiques, il enrichit le contexte d'auto-attention en concaténant les paires Clé-Valeur des chemins de reconstruction et d'édition parallèles, permettant au modèle de fusionner dynamiquement les informations. De plus, pour déterminer où appliquer cet enrichissement (pour spécifier où éditer), nous proposons une analyse systématique et basée sur les données pour identifier les couches cruciales spécifiques à la tâche. Basée sur une nouvelle Métrique de Réactivité au Guidage, notre méthode identifie les blocs DiT les plus influents pour différentes tâches (par exemple, insertion, échange), permettant un guidage ciblé et hautement efficace. Des expériences approfondies montrent que ContextFlow surpasse significativement les méthodes existantes sans apprentissage et dépasse même plusieurs approches de pointe basées sur l'apprentissage, produisant des résultats cohérents temporellement et de haute fidélité.
English
Training-free video object editing aims to achieve precise object-level
manipulation, including object insertion, swapping, and deletion. However, it
faces significant challenges in maintaining fidelity and temporal consistency.
Existing methods, often designed for U-Net architectures, suffer from two
primary limitations: inaccurate inversion due to first-order solvers, and
contextual conflicts caused by crude "hard" feature replacement. These issues
are more challenging in Diffusion Transformers (DiTs), where the unsuitability
of prior layer-selection heuristics makes effective guidance challenging. To
address these limitations, we introduce ContextFlow, a novel training-free
framework for DiT-based video object editing. In detail, we first employ a
high-order Rectified Flow solver to establish a robust editing foundation. The
core of our framework is Adaptive Context Enrichment (for specifying what to
edit), a mechanism that addresses contextual conflicts. Instead of replacing
features, it enriches the self-attention context by concatenating Key-Value
pairs from parallel reconstruction and editing paths, empowering the model to
dynamically fuse information. Additionally, to determine where to apply this
enrichment (for specifying where to edit), we propose a systematic, data-driven
analysis to identify task-specific vital layers. Based on a novel Guidance
Responsiveness Metric, our method pinpoints the most influential DiT blocks for
different tasks (e.g., insertion, swapping), enabling targeted and highly
effective guidance. Extensive experiments show that ContextFlow significantly
outperforms existing training-free methods and even surpasses several
state-of-the-art training-based approaches, delivering temporally coherent,
high-fidelity results.