Motion-Bewust Conceptuitlijning voor Consistente Videobewerking
Motion-Aware Concept Alignment for Consistent Video Editing
June 1, 2025
Auteurs: Tong Zhang, Juan C Leon Alcazar, Bernard Ghanem
cs.AI
Samenvatting
We introduceren MoCA-Video (Motion-Aware Concept Alignment in Video), een trainingsvrij raamwerk dat de kloof overbrugt tussen semantisch mengen in het beelddomein en video. Gegeven een gegenereerde video en een door de gebruiker aangeleverde referentieafbeelding, injecteert MoCA-Video de semantische kenmerken van de referentieafbeelding in een specifiek object binnen de video, terwijl de oorspronkelijke beweging en visuele context behouden blijven. Onze aanpak maakt gebruik van een diagonale denoisingschema en klasse-agnostische segmentatie om objecten in de latente ruimte te detecteren en te volgen, en om de ruimtelijke locatie van de samengevoegde objecten nauwkeurig te beheersen. Om temporele coherentie te waarborgen, integreren we momentum-gebaseerde semantische correcties en gamma-residuele ruisstabilisatie voor soepele frameovergangen. We evalueren de prestaties van MoCA met behulp van de standaard SSIM, beeldniveau LPIPS, temporele LPIPS, en introduceren een nieuwe metriek CASS (Conceptual Alignment Shift Score) om de consistentie en effectiviteit van de visuele verschuivingen tussen de bronprompt en de gewijzigde videoframes te beoordelen. Met behulp van een zelfsamengestelde dataset presteert MoCA-Video beter dan de huidige baselines, met superieure ruimtelijke consistentie, coherente beweging en een aanzienlijk hogere CASS-score, ondanks het ontbreken van training of fine-tuning. MoCA-Video toont aan dat gestructureerde manipulatie in de diffusieruistrajectorie zorgt voor beheersbare, hoogwaardige videosynthese.
English
We introduce MoCA-Video (Motion-Aware Concept Alignment in Video), a
training-free framework bridging the gap between image-domain semantic mixing
and video. Given a generated video and a user-provided reference image,
MoCA-Video injects the semantic features of the reference image into a specific
object within the video, while preserving the original motion and visual
context. Our approach leverages a diagonal denoising schedule and
class-agnostic segmentation to detect and track objects in the latent space and
precisely control the spatial location of the blended objects. To ensure
temporal coherence, we incorporate momentum-based semantic corrections and
gamma residual noise stabilization for smooth frame transitions. We evaluate
MoCA's performance using the standard SSIM, image-level LPIPS, temporal LPIPS,
and introduce a novel metric CASS (Conceptual Alignment Shift Score) to
evaluate the consistency and effectiveness of the visual shifts between the
source prompt and the modified video frames. Using self-constructed dataset,
MoCA-Video outperforms current baselines, achieving superior spatial
consistency, coherent motion, and a significantly higher CASS score, despite
having no training or fine-tuning. MoCA-Video demonstrates that structured
manipulation in the diffusion noise trajectory allows for controllable,
high-quality video synthesis.