ChatPaper.aiChatPaper

Alinhamento de Conceitos com Consciência de Movimento para Edição Consistente de Vídeos

Motion-Aware Concept Alignment for Consistent Video Editing

June 1, 2025
Autores: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI

Resumo

Apresentamos o MoCA-Video (Alinhamento de Conceitos com Consciência de Movimento em Vídeo), uma estrutura livre de treinamento que preenche a lacuna entre a mistura semântica no domínio de imagens e vídeos. Dado um vídeo gerado e uma imagem de referência fornecida pelo usuário, o MoCA-Video injeta as características semânticas da imagem de referência em um objeto específico dentro do vídeo, preservando o movimento original e o contexto visual. Nossa abordagem utiliza um cronograma de redução de ruído diagonal e segmentação agnóstica de classes para detectar e rastrear objetos no espaço latente e controlar com precisão a localização espacial dos objetos mesclados. Para garantir coerência temporal, incorporamos correções semânticas baseadas em momento e estabilização de ruído residual gama para transições suaves entre quadros. Avaliamos o desempenho do MoCA utilizando as métricas padrão SSIM, LPIPS em nível de imagem, LPIPS temporal e introduzimos uma nova métrica, CASS (Pontuação de Deslocamento de Alinhamento Conceitual), para avaliar a consistência e eficácia das mudanças visuais entre o prompt de origem e os quadros modificados do vídeo. Utilizando um conjunto de dados autoconstruído, o MoCA-Video supera as bases de comparação atuais, alcançando consistência espacial superior, movimento coerente e uma pontuação CASS significativamente mais alta, apesar de não ter treinamento ou ajuste fino. O MoCA-Video demonstra que a manipulação estruturada na trajetória de ruído de difusão permite a síntese de vídeo controlável e de alta qualidade.
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a training-free framework bridging the gap between image-domain semantic mixing and video. Given a generated video and a user-provided reference image, MoCA-Video injects the semantic features of the reference image into a specific object within the video, while preserving the original motion and visual context. Our approach leverages a diagonal denoising schedule and class-agnostic segmentation to detect and track objects in the latent space and precisely control the spatial location of the blended objects. To ensure temporal coherence, we incorporate momentum-based semantic corrections and gamma residual noise stabilization for smooth frame transitions. We evaluate MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS, and introduce a novel metric CASS (Conceptual Alignment Shift Score) to evaluate the consistency and effectiveness of the visual shifts between the source prompt and the modified video frames. Using self-constructed dataset, MoCA-Video outperforms current baselines, achieving superior spatial consistency, coherent motion, and a significantly higher CASS score, despite having no training or fine-tuning. MoCA-Video demonstrates that structured manipulation in the diffusion noise trajectory allows for controllable, high-quality video synthesis.
PDF72June 4, 2025