ContextFlow: Trainingsfreie Videoobjektbearbeitung durch adaptive Kontextanreicherung
ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment
September 22, 2025
papers.authors: Yiyang Chen, Xuanhua He, Xiujun Ma, Yue Ma
cs.AI
papers.abstract
Trainingsfreie Videoobjektbearbeitung zielt darauf ab, präzise Objektmanipulationen, einschließlich Objekteinfügung, -austausch und -löschung, zu erreichen. Sie steht jedoch vor erheblichen Herausforderungen bei der Wahrung von Detailtreue und zeitlicher Konsistenz. Bestehende Methoden, die oft für U-Net-Architekturen entwickelt wurden, leiden unter zwei Hauptproblemen: ungenaue Inversion aufgrund von Solvern erster Ordnung und kontextuelle Konflikte, die durch grobe „harte“ Merkmalsersetzung verursacht werden. Diese Probleme sind in Diffusion Transformers (DiTs) noch schwieriger, da die Ungeeignetheit früherer Layer-Auswahlheuristiken eine effektive Steuerung erschwert. Um diese Einschränkungen zu überwinden, stellen wir ContextFlow vor, ein neuartiges trainingsfreies Framework für DiT-basierte Videoobjektbearbeitung. Im Detail verwenden wir zunächst einen Solver höherer Ordnung (Rectified Flow), um eine robuste Bearbeitungsgrundlage zu schaffen. Das Kernstück unseres Frameworks ist Adaptive Context Enrichment (zur Spezifikation, was bearbeitet werden soll), ein Mechanismus, der kontextuelle Konflikte adressiert. Anstatt Merkmale zu ersetzen, bereichert er den Self-Attention-Kontext durch die Verkettung von Key-Value-Paaren aus parallelen Rekonstruktions- und Bearbeitungspfaden, wodurch das Modell befähigt wird, Informationen dynamisch zu fusionieren. Zusätzlich schlagen wir, um festzulegen, wo diese Anreicherung angewendet werden soll (zur Spezifikation, wo bearbeitet werden soll), eine systematische, datengetriebene Analyse vor, um aufgaben-spezifische entscheidende Layer zu identifizieren. Basierend auf einer neuartigen Guidance Responsiveness Metric lokalisiert unsere Methode die einflussreichsten DiT-Blöcke für verschiedene Aufgaben (z.B. Einfügung, Austausch), was eine gezielte und hocheffektive Steuerung ermöglicht. Umfangreiche Experimente zeigen, dass ContextFlow bestehende trainingsfreie Methoden deutlich übertrifft und sogar mehrere state-of-the-art trainingsbasierte Ansätze übertrumpft, indem es zeitlich kohärente, detailgetreue Ergebnisse liefert.
English
Training-free video object editing aims to achieve precise object-level
manipulation, including object insertion, swapping, and deletion. However, it
faces significant challenges in maintaining fidelity and temporal consistency.
Existing methods, often designed for U-Net architectures, suffer from two
primary limitations: inaccurate inversion due to first-order solvers, and
contextual conflicts caused by crude "hard" feature replacement. These issues
are more challenging in Diffusion Transformers (DiTs), where the unsuitability
of prior layer-selection heuristics makes effective guidance challenging. To
address these limitations, we introduce ContextFlow, a novel training-free
framework for DiT-based video object editing. In detail, we first employ a
high-order Rectified Flow solver to establish a robust editing foundation. The
core of our framework is Adaptive Context Enrichment (for specifying what to
edit), a mechanism that addresses contextual conflicts. Instead of replacing
features, it enriches the self-attention context by concatenating Key-Value
pairs from parallel reconstruction and editing paths, empowering the model to
dynamically fuse information. Additionally, to determine where to apply this
enrichment (for specifying where to edit), we propose a systematic, data-driven
analysis to identify task-specific vital layers. Based on a novel Guidance
Responsiveness Metric, our method pinpoints the most influential DiT blocks for
different tasks (e.g., insertion, swapping), enabling targeted and highly
effective guidance. Extensive experiments show that ContextFlow significantly
outperforms existing training-free methods and even surpasses several
state-of-the-art training-based approaches, delivering temporally coherent,
high-fidelity results.