Physique en deux étapes : verrouiller les a priori de mouvement avant que le raffinement visuel ne les efface

Résumé

Les modèles de diffusion d'image à vidéo exploitent des images d'entrée pour générer un contenu visuellement saisissant, mais produisent fréquemment des mouvements qui violent les lois physiques. Nous révélons un résultat surprenant : une génération en 2 étapes présente souvent une meilleure cohérence physique qu'une sortie en 50 étapes du même modèle. Grâce à une analyse spectrale, nous attribuons ce phénomène à l'érosion de phase pendant le débruitage ; la phase se dégrade significativement (chute d'environ 18 % de l'étape 2 à l'étape 50), tandis que la magnitude reste relativement stable. À partir de cette observation, nous proposons PhaseLock, un cadre sans entraînement qui préserve les a priori de mouvement valides issus d'une inférence en quelques étapes tout au long de la trajectoire de débruitage. Plutôt que de se fier à une inférence complète pour la cohérence physique, PhaseLock extrait un a priori de mouvement à partir de seulement 2 étapes et l'impose à la génération haute-fidélité via un Guidage Delta Latent. Notre approche atténue efficacement la dégradation de phase, améliorant la cohérence physique de 6,2 points en moyenne sur divers modèles tout en maintenant largement la fidélité visuelle, avec une surcharge négligeable (1,06 fois le temps, 1,02 fois la mémoire) et une dépendance réduite aux méthodes de guidage externe coûteuses (environ 5 fois le temps).

English

Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently produce motion that violates physical laws. We reveal a surprising finding: a 2-step generation often exhibits better physical consistency than a 50-step output from the same model. Through spectral analysis, we trace this to phase erosion during denoising; the phase degrades significantly (dropping by approx 18% from step 2 to step 50), whereas the magnitude remains relatively stable. Building on this insight, we propose PhaseLock, a training-free framework that preserves the valid motion priors from few-step inference throughout the denoising trajectory. Rather than relying on full-step inference for physical consistency, PhaseLock extracts a motion prior from just 2 steps and enforces it onto high-fidelity generation via Latent Delta Guidance. Our approach effectively mitigates phase degradation, improving physical consistency by an average of 6.2 points across diverse models while largely maintaining visual fidelity, with negligible overhead (1.06times time, 1.02times memory) and reduced reliance on expensive external guidance methods (sim5times time).