ChatPaper.aiChatPaper

Motion-Bewust Conceptuitlijning voor Consistente Videobewerking

Motion-Aware Concept Alignment for Consistent Video Editing

June 1, 2025
Auteurs: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI

Samenvatting

We introduceren MoCA-Video (Motion-Aware Concept Alignment in Video), een trainingsvrij raamwerk dat de kloof overbrugt tussen semantisch mengen in het beelddomein en video. Gegeven een gegenereerde video en een door de gebruiker aangeleverde referentieafbeelding, injecteert MoCA-Video de semantische kenmerken van de referentieafbeelding in een specifiek object binnen de video, terwijl de oorspronkelijke beweging en visuele context behouden blijven. Onze aanpak maakt gebruik van een diagonale denoisingschema en klasse-agnostische segmentatie om objecten in de latente ruimte te detecteren en te volgen, en om de ruimtelijke locatie van de samengevoegde objecten nauwkeurig te beheersen. Om temporele coherentie te waarborgen, integreren we momentum-gebaseerde semantische correcties en gamma-residuele ruisstabilisatie voor soepele frameovergangen. We evalueren de prestaties van MoCA met behulp van de standaard SSIM, beeldniveau LPIPS, temporele LPIPS, en introduceren een nieuwe metriek CASS (Conceptual Alignment Shift Score) om de consistentie en effectiviteit van de visuele verschuivingen tussen de bronprompt en de gewijzigde videoframes te beoordelen. Met behulp van een zelfsamengestelde dataset presteert MoCA-Video beter dan de huidige baselines, met superieure ruimtelijke consistentie, coherente beweging en een aanzienlijk hogere CASS-score, ondanks het ontbreken van training of fine-tuning. MoCA-Video toont aan dat gestructureerde manipulatie in de diffusieruistrajectorie zorgt voor beheersbare, hoogwaardige videosynthese.
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a training-free framework bridging the gap between image-domain semantic mixing and video. Given a generated video and a user-provided reference image, MoCA-Video injects the semantic features of the reference image into a specific object within the video, while preserving the original motion and visual context. Our approach leverages a diagonal denoising schedule and class-agnostic segmentation to detect and track objects in the latent space and precisely control the spatial location of the blended objects. To ensure temporal coherence, we incorporate momentum-based semantic corrections and gamma residual noise stabilization for smooth frame transitions. We evaluate MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS, and introduce a novel metric CASS (Conceptual Alignment Shift Score) to evaluate the consistency and effectiveness of the visual shifts between the source prompt and the modified video frames. Using self-constructed dataset, MoCA-Video outperforms current baselines, achieving superior spatial consistency, coherent motion, and a significantly higher CASS score, despite having no training or fine-tuning. MoCA-Video demonstrates that structured manipulation in the diffusion noise trajectory allows for controllable, high-quality video synthesis.
PDF72June 4, 2025