ContextFlow : Édition d'objets vidéo sans apprentissage via un enrichissement contextuel adaptatif

papers.abstract

L'édition d'objets vidéo sans apprentissage vise à réaliser des manipulations précises au niveau des objets, incluant l'insertion, l'échange et la suppression d'objets. Cependant, elle rencontre des défis majeurs pour maintenir la fidélité et la cohérence temporelle. Les méthodes existantes, souvent conçues pour des architectures U-Net, souffrent de deux limitations principales : une inversion imprécise due à l'utilisation de solveurs de premier ordre, et des conflits contextuels causés par un remplacement grossier et "dur" des caractéristiques. Ces problèmes sont encore plus complexes dans les Transformers de Diffusion (DiTs), où l'inadéquation des heuristiques de sélection de couches antérieures rend difficile un guidage efficace. Pour surmonter ces limitations, nous introduisons ContextFlow, un nouveau cadre sans apprentissage pour l'édition d'objets vidéo basée sur les DiTs. En détail, nous utilisons d'abord un solveur Rectified Flow d'ordre élevé pour établir une base solide d'édition. Le cœur de notre cadre est l'Enrichissement Contextuel Adaptatif (pour spécifier quoi éditer), un mécanisme qui résout les conflits contextuels. Au lieu de remplacer les caractéristiques, il enrichit le contexte d'auto-attention en concaténant les paires Clé-Valeur des chemins de reconstruction et d'édition parallèles, permettant au modèle de fusionner dynamiquement les informations. De plus, pour déterminer où appliquer cet enrichissement (pour spécifier où éditer), nous proposons une analyse systématique et basée sur les données pour identifier les couches cruciales spécifiques à la tâche. Basée sur une nouvelle Métrique de Réactivité au Guidage, notre méthode identifie les blocs DiT les plus influents pour différentes tâches (par exemple, insertion, échange), permettant un guidage ciblé et hautement efficace. Des expériences approfondies montrent que ContextFlow surpasse significativement les méthodes existantes sans apprentissage et dépasse même plusieurs approches de pointe basées sur l'apprentissage, produisant des résultats cohérents temporellement et de haute fidélité.

English

Training-free video object editing aims to achieve precise object-level manipulation, including object insertion, swapping, and deletion. However, it faces significant challenges in maintaining fidelity and temporal consistency. Existing methods, often designed for U-Net architectures, suffer from two primary limitations: inaccurate inversion due to first-order solvers, and contextual conflicts caused by crude "hard" feature replacement. These issues are more challenging in Diffusion Transformers (DiTs), where the unsuitability of prior layer-selection heuristics makes effective guidance challenging. To address these limitations, we introduce ContextFlow, a novel training-free framework for DiT-based video object editing. In detail, we first employ a high-order Rectified Flow solver to establish a robust editing foundation. The core of our framework is Adaptive Context Enrichment (for specifying what to edit), a mechanism that addresses contextual conflicts. Instead of replacing features, it enriches the self-attention context by concatenating Key-Value pairs from parallel reconstruction and editing paths, empowering the model to dynamically fuse information. Additionally, to determine where to apply this enrichment (for specifying where to edit), we propose a systematic, data-driven analysis to identify task-specific vital layers. Based on a novel Guidance Responsiveness Metric, our method pinpoints the most influential DiT blocks for different tasks (e.g., insertion, swapping), enabling targeted and highly effective guidance. Extensive experiments show that ContextFlow significantly outperforms existing training-free methods and even surpasses several state-of-the-art training-based approaches, delivering temporally coherent, high-fidelity results.

ContextFlow : Édition d'objets vidéo sans apprentissage via un enrichissement contextuel adaptatif

ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

papers.abstract

Support