Alineación de Conceptos Consciente del Movimiento para la Edición Consistente de Videos
Motion-Aware Concept Alignment for Consistent Video Editing
June 1, 2025
Autores: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI
Resumen
Presentamos MoCA-Video (Alineación de Conceptos con Conciencia de Movimiento en Video), un marco de trabajo sin entrenamiento que cierra la brecha entre la mezcla semántica en el dominio de la imagen y el video. Dado un video generado y una imagen de referencia proporcionada por el usuario, MoCA-Video inyecta las características semánticas de la imagen de referencia en un objeto específico dentro del video, preservando el movimiento original y el contexto visual. Nuestro enfoque aprovecha un programa de eliminación de ruido diagonal y segmentación independiente de la clase para detectar y rastrear objetos en el espacio latente y controlar con precisión la ubicación espacial de los objetos mezclados. Para garantizar la coherencia temporal, incorporamos correcciones semánticas basadas en momento y estabilización de ruido residual gamma para transiciones suaves entre fotogramas. Evaluamos el rendimiento de MoCA utilizando las métricas estándar SSIM, LPIPS a nivel de imagen, LPIPS temporal, e introducimos una nueva métrica llamada CASS (Puntuación de Desplazamiento de Alineación Conceptual) para evaluar la consistencia y efectividad de los cambios visuales entre el prompt de origen y los fotogramas modificados del video. Utilizando un conjunto de datos autoconstruido, MoCA-Video supera a los baselines actuales, logrando una consistencia espacial superior, un movimiento coherente y una puntuación CASS significativamente más alta, a pesar de no requerir entrenamiento o ajuste fino. MoCA-Video demuestra que la manipulación estructurada en la trayectoria de ruido de difusión permite una síntesis de video controlable y de alta calidad.
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a
training-free framework bridging the gap between image-domain semantic mixing
and video. Given a generated video and a user-provided reference image,
MoCA-Video injects the semantic features of the reference image into a specific
object within the video, while preserving the original motion and visual
context. Our approach leverages a diagonal denoising schedule and
class-agnostic segmentation to detect and track objects in the latent space and
precisely control the spatial location of the blended objects. To ensure
temporal coherence, we incorporate momentum-based semantic corrections and
gamma residual noise stabilization for smooth frame transitions. We evaluate
MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS,
and introduce a novel metric CASS (Conceptual Alignment Shift Score) to
evaluate the consistency and effectiveness of the visual shifts between the
source prompt and the modified video frames. Using self-constructed dataset,
MoCA-Video outperforms current baselines, achieving superior spatial
consistency, coherent motion, and a significantly higher CASS score, despite
having no training or fine-tuning. MoCA-Video demonstrates that structured
manipulation in the diffusion noise trajectory allows for controllable,
high-quality video synthesis.