ContextFlow: Training-vrije video-objectbewerking via adaptieve contextverrijking

Samenvatting

Trainingsvrije video-objectbewerking heeft als doel precieze manipulatie op objectniveau te bereiken, inclusief het invoegen, vervangen en verwijderen van objecten. Het wordt echter geconfronteerd met aanzienlijke uitdagingen bij het behouden van nauwkeurigheid en temporele consistentie. Bestaande methoden, vaak ontworpen voor U-Net-architecturen, kampen met twee primaire beperkingen: onnauwkeurige inversie door eerstegraads oplossers en contextuele conflicten veroorzaakt door ruwe "harde" feature-vervanging. Deze problemen zijn nog uitdagender in Diffusion Transformers (DiTs), waar de ongeschiktheid van eerder gebruikte laagselectieheuristieken effectieve begeleiding bemoeilijkt. Om deze beperkingen aan te pakken, introduceren we ContextFlow, een nieuw trainingsvrij framework voor DiT-gebaseerde video-objectbewerking. In detail gebruiken we eerst een hogere-orde Rectified Flow-oplosser om een robuuste bewerkingsbasis te creëren. De kern van ons framework is Adaptive Context Enrichment (voor het specificeren wat te bewerken), een mechanisme dat contextuele conflicten aanpakt. In plaats van features te vervangen, verrijkt het de self-attention-context door Key-Value-paren uit parallelle reconstructie- en bewerkingspaden samen te voegen, waardoor het model in staat wordt gesteld informatie dynamisch te fuseren. Daarnaast stellen we, om te bepalen waar deze verrijking moet worden toegepast (voor het specificeren waar te bewerken), een systematische, data-gedreven analyse voor om taakspecifieke cruciale lagen te identificeren. Gebaseerd op een nieuwe Guidance Responsiveness Metric, wijst onze methode de meest invloedrijke DiT-blokken aan voor verschillende taken (bijv. invoegen, vervangen), waardoor gerichte en zeer effectieve begeleiding mogelijk wordt. Uitgebreide experimenten tonen aan dat ContextFlow aanzienlijk beter presteert dan bestaande trainingsvrije methoden en zelfs verschillende state-of-the-art trainingsgebaseerde benaderingen overtreft, met temporeel coherente, hoogwaardige resultaten als resultaat.

English

Training-free video object editing aims to achieve precise object-level manipulation, including object insertion, swapping, and deletion. However, it faces significant challenges in maintaining fidelity and temporal consistency. Existing methods, often designed for U-Net architectures, suffer from two primary limitations: inaccurate inversion due to first-order solvers, and contextual conflicts caused by crude "hard" feature replacement. These issues are more challenging in Diffusion Transformers (DiTs), where the unsuitability of prior layer-selection heuristics makes effective guidance challenging. To address these limitations, we introduce ContextFlow, a novel training-free framework for DiT-based video object editing. In detail, we first employ a high-order Rectified Flow solver to establish a robust editing foundation. The core of our framework is Adaptive Context Enrichment (for specifying what to edit), a mechanism that addresses contextual conflicts. Instead of replacing features, it enriches the self-attention context by concatenating Key-Value pairs from parallel reconstruction and editing paths, empowering the model to dynamically fuse information. Additionally, to determine where to apply this enrichment (for specifying where to edit), we propose a systematic, data-driven analysis to identify task-specific vital layers. Based on a novel Guidance Responsiveness Metric, our method pinpoints the most influential DiT blocks for different tasks (e.g., insertion, swapping), enabling targeted and highly effective guidance. Extensive experiments show that ContextFlow significantly outperforms existing training-free methods and even surpasses several state-of-the-art training-based approaches, delivering temporally coherent, high-fidelity results.

ContextFlow: Training-vrije video-objectbewerking via adaptieve contextverrijking

ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

Samenvatting

Support