Physik in zwei Schritten: Bewegungsprioren fixieren, bevor die visuelle Verfeinerung sie löscht

Zusammenfassung

Bild-zu-Video-Diffusionsmodelle nutzen Eingabebilder, um visuell beeindruckende Inhalte zu erzeugen, produzieren jedoch häufig Bewegungen, die physikalische Gesetze verletzen. Wir entdecken eine überraschende Erkenntnis: Eine 2-Schritt-Generierung weist oft eine bessere physikalische Konsistenz auf als eine 50-Schritt-Ausgabe desselben Modells. Mittels Spektralanalyse führen wir dies auf eine Phasen-Erosion während des Entrauschens zurück; die Phase verschlechtert sich erheblich (Abfall um ca. 18 % von Schritt 2 bis Schritt 50), während die Magnitude relativ stabil bleibt. Aufbauend auf dieser Erkenntnis schlagen wir PhaseLock vor, ein trainingsfreies Framework, das die gültigen Bewegungs-Priors aus einer wenige Schritte umfassenden Inferenz über die gesamte Entrauschungs-Trajektorie hinweg bewahrt. Anstatt sich für physikalische Konsistenz auf eine vollständige Schritt-Inferenz zu verlassen, extrahiert PhaseLock einen Bewegungs-Prior aus nur 2 Schritten und erzwingt diesen mittels Latent-Delta-Guidance auf die hochgetreue Generierung. Unser Ansatz mildert effektiv die Phasenverschlechterung, verbessert die physikalische Konsistenz über verschiedene Modelle hinweg um durchschnittlich 6,2 Punkte, während die visuelle Treue weitgehend erhalten bleibt, bei vernachlässigbarem Overhead (1,06-fache Zeit, 1,02-facher Speicher) und verringerter Abhängigkeit von teuren externen Guidance-Methoden (ca. 5-fache Zeit).

English

Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently produce motion that violates physical laws. We reveal a surprising finding: a 2-step generation often exhibits better physical consistency than a 50-step output from the same model. Through spectral analysis, we trace this to phase erosion during denoising; the phase degrades significantly (dropping by approx 18% from step 2 to step 50), whereas the magnitude remains relatively stable. Building on this insight, we propose PhaseLock, a training-free framework that preserves the valid motion priors from few-step inference throughout the denoising trajectory. Rather than relying on full-step inference for physical consistency, PhaseLock extracts a motion prior from just 2 steps and enforces it onto high-fidelity generation via Latent Delta Guidance. Our approach effectively mitigates phase degradation, improving physical consistency by an average of 6.2 points across diverse models while largely maintaining visual fidelity, with negligible overhead (1.06times time, 1.02times memory) and reduced reliance on expensive external guidance methods (sim5times time).