ChatPaper.aiChatPaper

ContextFlow: Редактирование объектов в видео без обучения через адаптивное обогащение контекста

ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

September 22, 2025
Авторы: Yiyang Chen, Xuanhua He, Xiujun Ma, Yue Ma
cs.AI

Аннотация

Редактирование объектов в видео без обучения направлено на достижение точного манипулирования на уровне объектов, включая вставку, замену и удаление объектов. Однако оно сталкивается с существенными трудностями в сохранении точности и временной согласованности. Существующие методы, часто разработанные для архитектур U-Net, страдают от двух основных ограничений: неточной инверсии из-за решателей первого порядка и контекстных конфликтов, вызванных грубой "жесткой" заменой признаков. Эти проблемы становятся более сложными в Diffusion Transformers (DiTs), где неприменимость эвристик выбора слоев затрудняет эффективное управление. Для решения этих ограничений мы представляем ContextFlow, новый фреймворк для редактирования объектов в видео на основе DiT, не требующий обучения. В частности, мы сначала используем решатель высокого порядка Rectified Flow для создания надежной основы редактирования. Основой нашего фреймворка является Adaptive Context Enrichment (для определения того, что редактировать), механизм, который устраняет контекстные конфликты. Вместо замены признаков он обогащает контекст self-attention путем объединения пар Key-Value из параллельных путей реконструкции и редактирования, позволяя модели динамически объединять информацию. Кроме того, для определения того, где применять это обогащение (для указания того, где редактировать), мы предлагаем систематический, основанный на данных анализ для выявления важных слоев, специфичных для задачи. На основе новой метрики Guidance Responsiveness Metric наш метод определяет наиболее влияющие блоки DiT для различных задач (например, вставка, замена), обеспечивая целенаправленное и высокоэффективное управление. Многочисленные эксперименты показывают, что ContextFlow значительно превосходит существующие методы без обучения и даже опережает несколько современных подходов, требующих обучения, обеспечивая временно согласованные и высокоточные результаты.
English
Training-free video object editing aims to achieve precise object-level manipulation, including object insertion, swapping, and deletion. However, it faces significant challenges in maintaining fidelity and temporal consistency. Existing methods, often designed for U-Net architectures, suffer from two primary limitations: inaccurate inversion due to first-order solvers, and contextual conflicts caused by crude "hard" feature replacement. These issues are more challenging in Diffusion Transformers (DiTs), where the unsuitability of prior layer-selection heuristics makes effective guidance challenging. To address these limitations, we introduce ContextFlow, a novel training-free framework for DiT-based video object editing. In detail, we first employ a high-order Rectified Flow solver to establish a robust editing foundation. The core of our framework is Adaptive Context Enrichment (for specifying what to edit), a mechanism that addresses contextual conflicts. Instead of replacing features, it enriches the self-attention context by concatenating Key-Value pairs from parallel reconstruction and editing paths, empowering the model to dynamically fuse information. Additionally, to determine where to apply this enrichment (for specifying where to edit), we propose a systematic, data-driven analysis to identify task-specific vital layers. Based on a novel Guidance Responsiveness Metric, our method pinpoints the most influential DiT blocks for different tasks (e.g., insertion, swapping), enabling targeted and highly effective guidance. Extensive experiments show that ContextFlow significantly outperforms existing training-free methods and even surpasses several state-of-the-art training-based approaches, delivering temporally coherent, high-fidelity results.
PDF72September 23, 2025