ContextFlow: Edição de Objetos em Vídeo sem Treinamento via Enriquecimento Adaptativo de Contexto
ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment
September 22, 2025
Autores: Yiyang Chen, Xuanhua He, Xiujun Ma, Yue Ma
cs.AI
Resumo
A edição de objetos em vídeo sem treinamento visa alcançar manipulação precisa em nível de objeto, incluindo inserção, troca e remoção de objetos. No entanto, enfrenta desafios significativos em manter fidelidade e consistência temporal. Os métodos existentes, frequentemente projetados para arquiteturas U-Net, sofrem com duas limitações principais: inversão imprecisa devido a solucionadores de primeira ordem e conflitos contextuais causados pela substituição "rígida" e rudimentar de características. Esses problemas são mais desafiadores em Transformadores de Difusão (DiTs), onde a inadequação das heurísticas anteriores de seleção de camadas torna a orientação eficaz difícil. Para abordar essas limitações, introduzimos o ContextFlow, uma nova estrutura sem treinamento para edição de objetos em vídeo baseada em DiT. Em detalhes, primeiro empregamos um solucionador de Fluxo Retificado de alta ordem para estabelecer uma base robusta de edição. O núcleo de nossa estrutura é o Enriquecimento Contextual Adaptativo (para especificar o que editar), um mecanismo que resolve conflitos contextuais. Em vez de substituir características, ele enriquece o contexto de auto-atenção concatenando pares Chave-Valor de caminhos de reconstrução e edição paralelos, capacitando o modelo a fundir informações dinamicamente. Além disso, para determinar onde aplicar esse enriquecimento (para especificar onde editar), propomos uma análise sistemática e orientada por dados para identificar camadas vitais específicas da tarefa. Com base em uma nova Métrica de Responsividade de Orientação, nosso método identifica os blocos DiT mais influentes para diferentes tarefas (por exemplo, inserção, troca), permitindo orientação direcionada e altamente eficaz. Experimentos extensivos mostram que o ContextFlow supera significativamente os métodos existentes sem treinamento e até ultrapassa várias abordagens state-of-the-art baseadas em treinamento, entregando resultados temporalmente coerentes e de alta fidelidade.
English
Training-free video object editing aims to achieve precise object-level
manipulation, including object insertion, swapping, and deletion. However, it
faces significant challenges in maintaining fidelity and temporal consistency.
Existing methods, often designed for U-Net architectures, suffer from two
primary limitations: inaccurate inversion due to first-order solvers, and
contextual conflicts caused by crude "hard" feature replacement. These issues
are more challenging in Diffusion Transformers (DiTs), where the unsuitability
of prior layer-selection heuristics makes effective guidance challenging. To
address these limitations, we introduce ContextFlow, a novel training-free
framework for DiT-based video object editing. In detail, we first employ a
high-order Rectified Flow solver to establish a robust editing foundation. The
core of our framework is Adaptive Context Enrichment (for specifying what to
edit), a mechanism that addresses contextual conflicts. Instead of replacing
features, it enriches the self-attention context by concatenating Key-Value
pairs from parallel reconstruction and editing paths, empowering the model to
dynamically fuse information. Additionally, to determine where to apply this
enrichment (for specifying where to edit), we propose a systematic, data-driven
analysis to identify task-specific vital layers. Based on a novel Guidance
Responsiveness Metric, our method pinpoints the most influential DiT blocks for
different tasks (e.g., insertion, swapping), enabling targeted and highly
effective guidance. Extensive experiments show that ContextFlow significantly
outperforms existing training-free methods and even surpasses several
state-of-the-art training-based approaches, delivering temporally coherent,
high-fidelity results.