ContextFlow: Modifica di Oggetti Video senza Addestramento tramite Arricchimento Contestuale Adattivo
ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment
September 22, 2025
Autori: Yiyang Chen, Xuanhua He, Xiujun Ma, Yue Ma
cs.AI
Abstract
La modifica di oggetti video senza addestramento mira a ottenere una manipolazione precisa a livello di oggetto, inclusa l'inserzione, lo scambio e la cancellazione di oggetti. Tuttavia, affronta sfide significative nel mantenere la fedeltà e la coerenza temporale. I metodi esistenti, spesso progettati per architetture U-Net, soffrono di due limitazioni principali: l'inversione imprecisa dovuta a risolutori di primo ordine e i conflitti contestuali causati dalla sostituzione "rigida" e approssimativa delle feature. Questi problemi sono più complessi nei Diffusion Transformers (DiTs), dove l'inadeguatezza delle euristiche di selezione dei livelli precedenti rende difficile una guida efficace. Per affrontare queste limitazioni, introduciamo ContextFlow, un nuovo framework senza addestramento per la modifica di oggetti video basato su DiT. Nel dettaglio, utilizziamo prima un risolutore Rectified Flow di ordine superiore per stabilire una solida base di modifica. Il cuore del nostro framework è l'Adaptive Context Enrichment (per specificare cosa modificare), un meccanismo che risolve i conflitti contestuali. Invece di sostituire le feature, arricchisce il contesto di self-attention concatenando coppie Key-Value dai percorsi di ricostruzione e modifica paralleli, consentendo al modello di fondere dinamicamente le informazioni. Inoltre, per determinare dove applicare questo arricchimento (per specificare dove modificare), proponiamo un'analisi sistematica e basata sui dati per identificare i livelli cruciali specifici per il compito. Basandoci su una nuova metrica di Responsiveness della Guida, il nostro metodo individua i blocchi DiT più influenti per diversi compiti (ad esempio, inserzione, scambio), consentendo una guida mirata e altamente efficace. Esperimenti estesi dimostrano che ContextFlow supera significativamente i metodi esistenti senza addestramento e supera persino diversi approcci all'avanguardia basati su addestramento, fornendo risultati temporalmente coerenti e ad alta fedeltà.
English
Training-free video object editing aims to achieve precise object-level
manipulation, including object insertion, swapping, and deletion. However, it
faces significant challenges in maintaining fidelity and temporal consistency.
Existing methods, often designed for U-Net architectures, suffer from two
primary limitations: inaccurate inversion due to first-order solvers, and
contextual conflicts caused by crude "hard" feature replacement. These issues
are more challenging in Diffusion Transformers (DiTs), where the unsuitability
of prior layer-selection heuristics makes effective guidance challenging. To
address these limitations, we introduce ContextFlow, a novel training-free
framework for DiT-based video object editing. In detail, we first employ a
high-order Rectified Flow solver to establish a robust editing foundation. The
core of our framework is Adaptive Context Enrichment (for specifying what to
edit), a mechanism that addresses contextual conflicts. Instead of replacing
features, it enriches the self-attention context by concatenating Key-Value
pairs from parallel reconstruction and editing paths, empowering the model to
dynamically fuse information. Additionally, to determine where to apply this
enrichment (for specifying where to edit), we propose a systematic, data-driven
analysis to identify task-specific vital layers. Based on a novel Guidance
Responsiveness Metric, our method pinpoints the most influential DiT blocks for
different tasks (e.g., insertion, swapping), enabling targeted and highly
effective guidance. Extensive experiments show that ContextFlow significantly
outperforms existing training-free methods and even surpasses several
state-of-the-art training-based approaches, delivering temporally coherent,
high-fidelity results.