Física en 2 pasos: fijando los priores de movimiento antes de que el refinamiento visual los borre

Resumen

Los modelos de difusión de imagen a video aprovechan las imágenes de entrada para generar contenido visualmente impactante, pero con frecuencia producen movimientos que violan las leyes físicas. Revelamos un hallazgo sorprendente: una generación de 2 pasos suele exhibir una consistencia física mejor que la salida de 50 pasos del mismo modelo. Mediante análisis espectral, rastreamos esto hasta la erosión de fase durante el desruido; la fase se degrada significativamente (disminuyendo aproximadamente un 18% desde el paso 2 hasta el paso 50), mientras que la magnitud permanece relativamente estable. Basándonos en esta observación, proponemos PhaseLock, un marco sin entrenamiento que preserva los priors de movimiento válidos de la inferencia de pocos pasos a lo largo de la trayectoria de desruido. En lugar de depender de la inferencia de pasos completos para la consistencia física, PhaseLock extrae un prior de movimiento de solo 2 pasos y lo impone sobre la generación de alta fidelidad mediante la Guía Delta Latente. Nuestro enfoque mitiga eficazmente la degradación de fase, mejorando la consistencia física en un promedio de 6.2 puntos en diversos modelos, mientras mantiene en gran medida la fidelidad visual, con una sobrecarga insignificante (1.06 veces el tiempo, 1.02 veces la memoria) y una menor dependencia de costosos métodos de guía externa (~5 veces el tiempo).

English

Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently produce motion that violates physical laws. We reveal a surprising finding: a 2-step generation often exhibits better physical consistency than a 50-step output from the same model. Through spectral analysis, we trace this to phase erosion during denoising; the phase degrades significantly (dropping by approx 18% from step 2 to step 50), whereas the magnitude remains relatively stable. Building on this insight, we propose PhaseLock, a training-free framework that preserves the valid motion priors from few-step inference throughout the denoising trajectory. Rather than relying on full-step inference for physical consistency, PhaseLock extracts a motion prior from just 2 steps and enforces it onto high-fidelity generation via Latent Delta Guidance. Our approach effectively mitigates phase degradation, improving physical consistency by an average of 6.2 points across diverse models while largely maintaining visual fidelity, with negligible overhead (1.06times time, 1.02times memory) and reduced reliance on expensive external guidance methods (sim5times time).