ContextFlow: Edição de Objetos em Vídeo sem Treinamento via Enriquecimento Adaptativo de Contexto

Resumo

A edição de objetos em vídeo sem treinamento visa alcançar manipulação precisa em nível de objeto, incluindo inserção, troca e remoção de objetos. No entanto, enfrenta desafios significativos em manter fidelidade e consistência temporal. Os métodos existentes, frequentemente projetados para arquiteturas U-Net, sofrem com duas limitações principais: inversão imprecisa devido a solucionadores de primeira ordem e conflitos contextuais causados pela substituição "rígida" e rudimentar de características. Esses problemas são mais desafiadores em Transformadores de Difusão (DiTs), onde a inadequação das heurísticas anteriores de seleção de camadas torna a orientação eficaz difícil. Para abordar essas limitações, introduzimos o ContextFlow, uma nova estrutura sem treinamento para edição de objetos em vídeo baseada em DiT. Em detalhes, primeiro empregamos um solucionador de Fluxo Retificado de alta ordem para estabelecer uma base robusta de edição. O núcleo de nossa estrutura é o Enriquecimento Contextual Adaptativo (para especificar o que editar), um mecanismo que resolve conflitos contextuais. Em vez de substituir características, ele enriquece o contexto de auto-atenção concatenando pares Chave-Valor de caminhos de reconstrução e edição paralelos, capacitando o modelo a fundir informações dinamicamente. Além disso, para determinar onde aplicar esse enriquecimento (para especificar onde editar), propomos uma análise sistemática e orientada por dados para identificar camadas vitais específicas da tarefa. Com base em uma nova Métrica de Responsividade de Orientação, nosso método identifica os blocos DiT mais influentes para diferentes tarefas (por exemplo, inserção, troca), permitindo orientação direcionada e altamente eficaz. Experimentos extensivos mostram que o ContextFlow supera significativamente os métodos existentes sem treinamento e até ultrapassa várias abordagens state-of-the-art baseadas em treinamento, entregando resultados temporalmente coerentes e de alta fidelidade.

English

Training-free video object editing aims to achieve precise object-level manipulation, including object insertion, swapping, and deletion. However, it faces significant challenges in maintaining fidelity and temporal consistency. Existing methods, often designed for U-Net architectures, suffer from two primary limitations: inaccurate inversion due to first-order solvers, and contextual conflicts caused by crude "hard" feature replacement. These issues are more challenging in Diffusion Transformers (DiTs), where the unsuitability of prior layer-selection heuristics makes effective guidance challenging. To address these limitations, we introduce ContextFlow, a novel training-free framework for DiT-based video object editing. In detail, we first employ a high-order Rectified Flow solver to establish a robust editing foundation. The core of our framework is Adaptive Context Enrichment (for specifying what to edit), a mechanism that addresses contextual conflicts. Instead of replacing features, it enriches the self-attention context by concatenating Key-Value pairs from parallel reconstruction and editing paths, empowering the model to dynamically fuse information. Additionally, to determine where to apply this enrichment (for specifying where to edit), we propose a systematic, data-driven analysis to identify task-specific vital layers. Based on a novel Guidance Responsiveness Metric, our method pinpoints the most influential DiT blocks for different tasks (e.g., insertion, swapping), enabling targeted and highly effective guidance. Extensive experiments show that ContextFlow significantly outperforms existing training-free methods and even surpasses several state-of-the-art training-based approaches, delivering temporally coherent, high-fidelity results.

ContextFlow: Edição de Objetos em Vídeo sem Treinamento via Enriquecimento Adaptativo de Contexto

ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

Resumo

Support