Унифицированное редактирование видео с временным анализатором
Unified Video Editing with Temporal Reasoner
December 8, 2025
Авторы: Xiangpeng Yang, Ji Xie, Yiyuan Yang, Yan Huang, Min Xu, Qiang Wu
cs.AI
Аннотация
Существующие методы редактирования видео сталкиваются с фундаментальным компромиссом: экспертные модели обеспечивают высокую точность, но опираются на специфичные для задачи априорные данные, такие как маски, что препятствует их унификации; напротив, унифицированные модели с контекстным обучением во временной области не требуют масок, но лишены явных пространственных подсказок, что приводит к слабому сопоставлению инструкций с областями и неточной локализации. Для разрешения этого противоречия мы предлагаем VideoCoF — новый подход «Цепочка кадров» (Chain-of-Frames), вдохновленный логикой «Цепочки рассуждений» (Chain-of-Thought). VideoCoF реализует процедуру «увидеть, осмыслить, затем редактировать», заставляя диффузионную модель видео сначала прогнозировать токены рассуждений (латентные представления областей редактирования) перед генерацией целевых видео-токенов. Этот явный шаг рассуждений устраняет необходимость в предоставлении пользователем масок, одновременно достигая точного соответствия инструкций областям и прецизионного редактирования видео. Кроме того, мы представляем стратегию выравнивания RoPE, которая использует эти токены рассуждений для обеспечения согласованности движения и позволяет экстраполировать длину видео за пределы длительности, использованной при обучении. Мы демонстрируем, что при минимальных затратах на данные — всего 50 тысяч пар видео — VideoCoF достигает наилучших результатов на VideoCoF-Bench, подтверждая эффективность нашего подхода. Наш код, веса модели и данные доступны по адресу https://github.com/knightyxp/VideoCoF.
English
Existing video editing methods face a critical trade-off: expert models offer precision but rely on task-specific priors like masks, hindering unification; conversely, unified temporal in-context learning models are mask-free but lack explicit spatial cues, leading to weak instruction-to-region mapping and imprecise localization. To resolve this conflict, we propose VideoCoF, a novel Chain-of-Frames approach inspired by Chain-of-Thought reasoning. VideoCoF enforces a ``see, reason, then edit" procedure by compelling the video diffusion model to first predict reasoning tokens (edit-region latents) before generating the target video tokens. This explicit reasoning step removes the need for user-provided masks while achieving precise instruction-to-region alignment and fine-grained video editing. Furthermore, we introduce a RoPE alignment strategy that leverages these reasoning tokens to ensure motion alignment and enable length extrapolation beyond the training duration. We demonstrate that with a minimal data cost of only 50k video pairs, VideoCoF achieves state-of-the-art performance on VideoCoF-Bench, validating the efficiency and effectiveness of our approach. Our code, weight, data are available at https://github.com/knightyxp/VideoCoF.