ContextFlow: Edición de objetos en video sin entrenamiento mediante enriquecimiento adaptativo de contexto

Resumen

La edición de objetos en vídeo sin entrenamiento tiene como objetivo lograr una manipulación precisa a nivel de objetos, incluyendo la inserción, intercambio y eliminación de objetos. Sin embargo, enfrenta desafíos significativos para mantener la fidelidad y la consistencia temporal. Los métodos existentes, a menudo diseñados para arquitecturas U-Net, presentan dos limitaciones principales: la inversión inexacta debido a solucionadores de primer orden y los conflictos contextuales causados por el reemplazo crudo y "rígido" de características. Estos problemas son más desafiantes en los Transformadores de Difusión (DiTs), donde la inadecuación de las heurísticas previas de selección de capas dificulta la guía efectiva. Para abordar estas limitaciones, presentamos ContextFlow, un marco novedoso sin entrenamiento para la edición de objetos en vídeo basado en DiT. En detalle, primero empleamos un solucionador de Flujo Rectificado de alto orden para establecer una base sólida de edición. El núcleo de nuestro marco es el Enriquecimiento Contextual Adaptativo (para especificar qué editar), un mecanismo que aborda los conflictos contextuales. En lugar de reemplazar características, enriquece el contexto de auto-atención concatenando pares Clave-Valor de las rutas de reconstrucción y edición paralelas, permitiendo que el modelo fusione información de manera dinámica. Además, para determinar dónde aplicar este enriquecimiento (para especificar dónde editar), proponemos un análisis sistemático basado en datos para identificar las capas vitales específicas de la tarea. Basado en una nueva Métrica de Capacidad de Respuesta a la Guía, nuestro método identifica los bloques DiT más influyentes para diferentes tareas (por ejemplo, inserción, intercambio), permitiendo una guía dirigida y altamente efectiva. Experimentos extensos muestran que ContextFlow supera significativamente los métodos existentes sin entrenamiento e incluso supera varios enfoques de última generación basados en entrenamiento, ofreciendo resultados temporalmente coherentes y de alta fidelidad.

English

Training-free video object editing aims to achieve precise object-level manipulation, including object insertion, swapping, and deletion. However, it faces significant challenges in maintaining fidelity and temporal consistency. Existing methods, often designed for U-Net architectures, suffer from two primary limitations: inaccurate inversion due to first-order solvers, and contextual conflicts caused by crude "hard" feature replacement. These issues are more challenging in Diffusion Transformers (DiTs), where the unsuitability of prior layer-selection heuristics makes effective guidance challenging. To address these limitations, we introduce ContextFlow, a novel training-free framework for DiT-based video object editing. In detail, we first employ a high-order Rectified Flow solver to establish a robust editing foundation. The core of our framework is Adaptive Context Enrichment (for specifying what to edit), a mechanism that addresses contextual conflicts. Instead of replacing features, it enriches the self-attention context by concatenating Key-Value pairs from parallel reconstruction and editing paths, empowering the model to dynamically fuse information. Additionally, to determine where to apply this enrichment (for specifying where to edit), we propose a systematic, data-driven analysis to identify task-specific vital layers. Based on a novel Guidance Responsiveness Metric, our method pinpoints the most influential DiT blocks for different tasks (e.g., insertion, swapping), enabling targeted and highly effective guidance. Extensive experiments show that ContextFlow significantly outperforms existing training-free methods and even surpasses several state-of-the-art training-based approaches, delivering temporally coherent, high-fidelity results.

ContextFlow: Edición de objetos en video sin entrenamiento mediante enriquecimiento adaptativo de contexto

ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

Resumen

Support