ChatPaper.aiChatPaper

Bewegungsbewusste Konzeptausrichtung für konsistente Videobearbeitung

Motion-Aware Concept Alignment for Consistent Video Editing

June 1, 2025
Autoren: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI

Zusammenfassung

Wir stellen MoCA-Video (Motion-Aware Concept Alignment in Video) vor, ein trainingsfreies Framework, das die Lücke zwischen semantischem Mischen im Bildbereich und Video schließt. Gegeben ein generiertes Video und ein vom Benutzer bereitgestelltes Referenzbild, injiziert MoCA-Video die semantischen Merkmale des Referenzbildes in ein spezifisches Objekt innerhalb des Videos, während die ursprüngliche Bewegung und der visuelle Kontext erhalten bleiben. Unser Ansatz nutzt einen diagonalen Entrauschungsplan und klassenagnostische Segmentierung, um Objekte im latenten Raum zu erkennen und zu verfolgen und die räumliche Position der gemischten Objekte präzise zu steuern. Um zeitliche Kohärenz zu gewährleisten, integrieren wir momentum-basierte semantische Korrekturen und Gamma-Restrauschstabilisierung für flüssige Übergänge zwischen den Bildern. Wir bewerten die Leistung von MoCA mit den Standardmetriken SSIM, bildbasiertem LPIPS, temporalem LPIPS und führen eine neue Metrik CASS (Conceptual Alignment Shift Score) ein, um die Konsistenz und Effektivität der visuellen Verschiebungen zwischen dem Quell-Prompt und den modifizierten Videobildern zu bewerten. Mit einem selbst erstellten Datensatz übertrifft MoCA-Video aktuelle Baselines und erreicht überlegene räumliche Konsistenz, kohärente Bewegung und einen signifikant höheren CASS-Wert, obwohl kein Training oder Fine-Tuning durchgeführt wurde. MoCA-Video demonstriert, dass strukturierte Manipulation in der Diffusionsrauschtrajektorie kontrollierbare, hochwertige Videosynthese ermöglicht.
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a training-free framework bridging the gap between image-domain semantic mixing and video. Given a generated video and a user-provided reference image, MoCA-Video injects the semantic features of the reference image into a specific object within the video, while preserving the original motion and visual context. Our approach leverages a diagonal denoising schedule and class-agnostic segmentation to detect and track objects in the latent space and precisely control the spatial location of the blended objects. To ensure temporal coherence, we incorporate momentum-based semantic corrections and gamma residual noise stabilization for smooth frame transitions. We evaluate MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS, and introduce a novel metric CASS (Conceptual Alignment Shift Score) to evaluate the consistency and effectiveness of the visual shifts between the source prompt and the modified video frames. Using self-constructed dataset, MoCA-Video outperforms current baselines, achieving superior spatial consistency, coherent motion, and a significantly higher CASS score, despite having no training or fine-tuning. MoCA-Video demonstrates that structured manipulation in the diffusion noise trajectory allows for controllable, high-quality video synthesis.
PDF72June 4, 2025