ChatPaper.aiChatPaper

Alignement de concepts sensibles au mouvement pour une édition vidéo cohérente

Motion-Aware Concept Alignment for Consistent Video Editing

June 1, 2025
Auteurs: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI

Résumé

Nous présentons MoCA-Video (Motion-Aware Concept Alignment in Video), un cadre sans apprentissage visant à combler l'écart entre le mélange sémantique dans le domaine des images et celui des vidéos. Étant donné une vidéo générée et une image de référence fournie par l'utilisateur, MoCA-Video injecte les caractéristiques sémantiques de l'image de référence dans un objet spécifique de la vidéo, tout en préservant le mouvement original et le contexte visuel. Notre approche exploite un plan de débruitage diagonal et une segmentation indépendante des classes pour détecter et suivre les objets dans l'espace latent, permettant un contrôle précis de l'emplacement spatial des objets fusionnés. Pour assurer la cohérence temporelle, nous intégrons des corrections sémantiques basées sur la quantité de mouvement et une stabilisation du bruit résiduel gamma pour des transitions fluides entre les images. Nous évaluons les performances de MoCA en utilisant les métriques standards SSIM, LPIPS au niveau de l'image, LPIPS temporel, et introduisons une nouvelle métrique, CASS (Conceptual Alignment Shift Score), pour évaluer la cohérence et l'efficacité des décalages visuels entre l'invite source et les images vidéo modifiées. En utilisant un ensemble de données auto-construit, MoCA-Video surpasse les références actuelles, obtenant une cohérence spatiale supérieure, un mouvement cohérent et un score CASS significativement plus élevé, malgré l'absence d'apprentissage ou de réglage fin. MoCA-Video démontre que la manipulation structurée dans la trajectoire du bruit de diffusion permet une synthèse vidéo contrôlée et de haute qualité.
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a training-free framework bridging the gap between image-domain semantic mixing and video. Given a generated video and a user-provided reference image, MoCA-Video injects the semantic features of the reference image into a specific object within the video, while preserving the original motion and visual context. Our approach leverages a diagonal denoising schedule and class-agnostic segmentation to detect and track objects in the latent space and precisely control the spatial location of the blended objects. To ensure temporal coherence, we incorporate momentum-based semantic corrections and gamma residual noise stabilization for smooth frame transitions. We evaluate MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS, and introduce a novel metric CASS (Conceptual Alignment Shift Score) to evaluate the consistency and effectiveness of the visual shifts between the source prompt and the modified video frames. Using self-constructed dataset, MoCA-Video outperforms current baselines, achieving superior spatial consistency, coherent motion, and a significantly higher CASS score, despite having no training or fine-tuning. MoCA-Video demonstrates that structured manipulation in the diffusion noise trajectory allows for controllable, high-quality video synthesis.
PDF72June 4, 2025