ChatPaper.aiChatPaper

Vereinheitlichte Videobearbeitung mit temporalem Reasoner

Unified Video Editing with Temporal Reasoner

December 8, 2025
papers.authors: Xiangpeng Yang, Ji Xie, Yiyuan Yang, Yan Huang, Min Xu, Qiang Wu
cs.AI

papers.abstract

Bestehende Videobearbeitungsmethoden stehen vor einem grundlegenden Zielkonflikt: Expertmodelle bieten zwar Präzision, sind jedoch auf aufgabenspezifische Priorinformationen wie Masken angewiesen, was eine Vereinheitlichung behindert; im Gegensatz dazu sind vereinheitlichte Modelle mit temporalem In-Context-Learning zwar maskenfrei, mangelt es ihnen jedoch an expliziten räumlichen Hinweisen, was zu einer schwachen Abbildung von Anweisungen auf Regionen und unpräziser Lokalisierung führt. Um diesen Konflikt zu lösen, schlagen wir VideoCoF vor, einen neuartigen Chain-of-Frames-Ansatz, der von Chain-of-Thought-Reasoning inspiriert ist. VideoCoF erzwingt einen „sehen, schlussfolgern, dann bearbeiten“-Prozess, indem es das Video-Diffusionsmodell dazu zwingt, zunächst Reasoning-Tokens (Edit-Region-Latents) vorherzusagen, bevor es die Zielvideo-Tokens generiert. Dieser explizite Reasoning-Schritt macht benutzerbereitgestellte Masken überflüssig und erreicht gleichzeitig eine präzise Anweisung-zu-Region-Abgleichung und eine fein granulare Videobearbeitung. Darüber hinaus führen wir eine RoPE-Alignment-Strategie ein, die diese Reasoning-Tokens nutzt, um Bewegungssynchronisation sicherzustellen und eine Längenextrapolation über die Trainingsdauer hinaus zu ermöglichen. Wir zeigen, dass VideoCoF mit minimalen Datenkosten von nur 50k Videopaaren state-of-the-art Leistung auf VideoCoF-Bench erreicht, was die Effizienz und Wirksamkeit unseres Ansatzes bestätigt. Unser Code, unsere Gewichte und Daten sind unter https://github.com/knightyxp/VideoCoF verfügbar.
English
Existing video editing methods face a critical trade-off: expert models offer precision but rely on task-specific priors like masks, hindering unification; conversely, unified temporal in-context learning models are mask-free but lack explicit spatial cues, leading to weak instruction-to-region mapping and imprecise localization. To resolve this conflict, we propose VideoCoF, a novel Chain-of-Frames approach inspired by Chain-of-Thought reasoning. VideoCoF enforces a ``see, reason, then edit" procedure by compelling the video diffusion model to first predict reasoning tokens (edit-region latents) before generating the target video tokens. This explicit reasoning step removes the need for user-provided masks while achieving precise instruction-to-region alignment and fine-grained video editing. Furthermore, we introduce a RoPE alignment strategy that leverages these reasoning tokens to ensure motion alignment and enable length extrapolation beyond the training duration. We demonstrate that with a minimal data cost of only 50k video pairs, VideoCoF achieves state-of-the-art performance on VideoCoF-Bench, validating the efficiency and effectiveness of our approach. Our code, weight, data are available at https://github.com/knightyxp/VideoCoF.
PDF356December 10, 2025