Alignement de concepts sensibles au mouvement pour une édition vidéo cohérente
Motion-Aware Concept Alignment for Consistent Video Editing
June 1, 2025
Auteurs: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI
Résumé
Nous présentons MoCA-Video (Motion-Aware Concept Alignment in Video), un cadre sans apprentissage visant à combler l'écart entre le mélange sémantique dans le domaine des images et celui des vidéos. Étant donné une vidéo générée et une image de référence fournie par l'utilisateur, MoCA-Video injecte les caractéristiques sémantiques de l'image de référence dans un objet spécifique de la vidéo, tout en préservant le mouvement original et le contexte visuel. Notre approche exploite un plan de débruitage diagonal et une segmentation indépendante des classes pour détecter et suivre les objets dans l'espace latent, permettant un contrôle précis de l'emplacement spatial des objets fusionnés. Pour assurer la cohérence temporelle, nous intégrons des corrections sémantiques basées sur la quantité de mouvement et une stabilisation du bruit résiduel gamma pour des transitions fluides entre les images. Nous évaluons les performances de MoCA en utilisant les métriques standards SSIM, LPIPS au niveau de l'image, LPIPS temporel, et introduisons une nouvelle métrique, CASS (Conceptual Alignment Shift Score), pour évaluer la cohérence et l'efficacité des décalages visuels entre l'invite source et les images vidéo modifiées. En utilisant un ensemble de données auto-construit, MoCA-Video surpasse les références actuelles, obtenant une cohérence spatiale supérieure, un mouvement cohérent et un score CASS significativement plus élevé, malgré l'absence d'apprentissage ou de réglage fin. MoCA-Video démontre que la manipulation structurée dans la trajectoire du bruit de diffusion permet une synthèse vidéo contrôlée et de haute qualité.
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a
training-free framework bridging the gap between image-domain semantic mixing
and video. Given a generated video and a user-provided reference image,
MoCA-Video injects the semantic features of the reference image into a specific
object within the video, while preserving the original motion and visual
context. Our approach leverages a diagonal denoising schedule and
class-agnostic segmentation to detect and track objects in the latent space and
precisely control the spatial location of the blended objects. To ensure
temporal coherence, we incorporate momentum-based semantic corrections and
gamma residual noise stabilization for smooth frame transitions. We evaluate
MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS,
and introduce a novel metric CASS (Conceptual Alignment Shift Score) to
evaluate the consistency and effectiveness of the visual shifts between the
source prompt and the modified video frames. Using self-constructed dataset,
MoCA-Video outperforms current baselines, achieving superior spatial
consistency, coherent motion, and a significantly higher CASS score, despite
having no training or fine-tuning. MoCA-Video demonstrates that structured
manipulation in the diffusion noise trajectory allows for controllable,
high-quality video synthesis.