Bewegungsbewusste Konzeptausrichtung für konsistente Videobearbeitung
Motion-Aware Concept Alignment for Consistent Video Editing
June 1, 2025
Autoren: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI
Zusammenfassung
Wir stellen MoCA-Video (Motion-Aware Concept Alignment in Video) vor, ein trainingsfreies Framework, das die Lücke zwischen semantischem Mischen im Bildbereich und Video schließt. Gegeben ein generiertes Video und ein vom Benutzer bereitgestelltes Referenzbild, injiziert MoCA-Video die semantischen Merkmale des Referenzbildes in ein spezifisches Objekt innerhalb des Videos, während die ursprüngliche Bewegung und der visuelle Kontext erhalten bleiben. Unser Ansatz nutzt einen diagonalen Entrauschungsplan und klassenagnostische Segmentierung, um Objekte im latenten Raum zu erkennen und zu verfolgen und die räumliche Position der gemischten Objekte präzise zu steuern. Um zeitliche Kohärenz zu gewährleisten, integrieren wir momentum-basierte semantische Korrekturen und Gamma-Restrauschstabilisierung für flüssige Übergänge zwischen den Bildern. Wir bewerten die Leistung von MoCA mit den Standardmetriken SSIM, bildbasiertem LPIPS, temporalem LPIPS und führen eine neue Metrik CASS (Conceptual Alignment Shift Score) ein, um die Konsistenz und Effektivität der visuellen Verschiebungen zwischen dem Quell-Prompt und den modifizierten Videobildern zu bewerten. Mit einem selbst erstellten Datensatz übertrifft MoCA-Video aktuelle Baselines und erreicht überlegene räumliche Konsistenz, kohärente Bewegung und einen signifikant höheren CASS-Wert, obwohl kein Training oder Fine-Tuning durchgeführt wurde. MoCA-Video demonstriert, dass strukturierte Manipulation in der Diffusionsrauschtrajektorie kontrollierbare, hochwertige Videosynthese ermöglicht.
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a
training-free framework bridging the gap between image-domain semantic mixing
and video. Given a generated video and a user-provided reference image,
MoCA-Video injects the semantic features of the reference image into a specific
object within the video, while preserving the original motion and visual
context. Our approach leverages a diagonal denoising schedule and
class-agnostic segmentation to detect and track objects in the latent space and
precisely control the spatial location of the blended objects. To ensure
temporal coherence, we incorporate momentum-based semantic corrections and
gamma residual noise stabilization for smooth frame transitions. We evaluate
MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS,
and introduce a novel metric CASS (Conceptual Alignment Shift Score) to
evaluate the consistency and effectiveness of the visual shifts between the
source prompt and the modified video frames. Using self-constructed dataset,
MoCA-Video outperforms current baselines, achieving superior spatial
consistency, coherent motion, and a significantly higher CASS score, despite
having no training or fine-tuning. MoCA-Video demonstrates that structured
manipulation in the diffusion noise trajectory allows for controllable,
high-quality video synthesis.