Fysica in 2 stappen: Het fixeren van bewegingspriors voordat visuele verfijning ze uitwist

Samenvatting

Beeld-naar-video diffusiemodellen gebruiken invoerbeelden om visueel verbluffende inhoud te genereren, maar produceren vaak beweging die de natuurwetten schendt. We onthullen een verrassende bevinding: een 2-staps generatie vertoont vaak betere fysische consistentie dan een 50-staps uitvoer van hetzelfde model. Door spectrale analyse herleiden we dit tot fase-erosie tijdens het ontruisen; de fase verslechtert aanzienlijk (met ongeveer 18% daling van stap 2 naar stap 50), terwijl de magnitude relatief stabiel blijft. Voortbouwend op dit inzicht stellen we PhaseLock voor, een trainingsvrij raamwerk dat de geldige bewegingspriors uit een inferentie met weinig stappen behoudt gedurende het gehele ontruisingstraject. In plaats van te vertrouwen op volledige stapsgewijze inferentie voor fysische consistentie, haalt PhaseLock een bewegingsprior uit slechts 2 stappen en dwingt deze af op generatie met hoge betrouwbaarheid via Latent Delta Guidance. Onze aanpak beperkt effectief fase-afbraak, verbetert de fysische consistentie met gemiddeld 6,2 punten over diverse modellen, terwijl de visuele betrouwbaarheid grotendeels behouden blijft, met verwaarloosbare overhead (1,06× tijd, 1,02× geheugen) en verminderde afhankelijkheid van dure externe begeleidingsmethoden (ongeveer 5× tijd).

English

Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently produce motion that violates physical laws. We reveal a surprising finding: a 2-step generation often exhibits better physical consistency than a 50-step output from the same model. Through spectral analysis, we trace this to phase erosion during denoising; the phase degrades significantly (dropping by approx 18% from step 2 to step 50), whereas the magnitude remains relatively stable. Building on this insight, we propose PhaseLock, a training-free framework that preserves the valid motion priors from few-step inference throughout the denoising trajectory. Rather than relying on full-step inference for physical consistency, PhaseLock extracts a motion prior from just 2 steps and enforces it onto high-fidelity generation via Latent Delta Guidance. Our approach effectively mitigates phase degradation, improving physical consistency by an average of 6.2 points across diverse models while largely maintaining visual fidelity, with negligible overhead (1.06times time, 1.02times memory) and reduced reliance on expensive external guidance methods (sim5times time).