Física em Duas Etapas: Travando Priores de Movimento Antes que o Refinamento Visual os Apague

Resumo

Modelos de difusão imagem-para-vídeo utilizam imagens de entrada para gerar conteúdo visual impressionante, mas frequentemente produzem movimentos que violam leis físicas. Revelamos uma descoberta surpreendente: uma geração em 2 etapas frequentemente exibe melhor consistência física do que uma saída de 50 etapas do mesmo modelo. Por meio de análise espectral, atribuímos isso à erosão de fase durante o processo de remoção de ruído; a fase degrada significativamente (caindo aproximadamente 18% da etapa 2 para a etapa 50), enquanto a magnitude permanece relativamente estável. Com base nessa percepção, propomos o PhaseLock, uma estrutura livre de treinamento que preserva os priores de movimento válidos da inferência de poucas etapas ao longo de toda a trajetória de remoção de ruído. Em vez de depender de inferência completa para consistência física, o PhaseLock extrai um prior de movimento de apenas 2 etapas e o impõe na geração de alta fidelidade por meio da Orientação Delta Latente (Latent Delta Guidance). Nossa abordagem mitiga efetivamente a degradação de fase, melhorando a consistência física em média 6,2 pontos em diversos modelos, mantendo em grande parte a fidelidade visual, com sobrecarga desprezível (1,06 vezes o tempo, 1,02 vezes a memória) e menor dependência de métodos de orientação externa caros (aproximadamente 5 vezes o tempo).

English

Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently produce motion that violates physical laws. We reveal a surprising finding: a 2-step generation often exhibits better physical consistency than a 50-step output from the same model. Through spectral analysis, we trace this to phase erosion during denoising; the phase degrades significantly (dropping by approx 18% from step 2 to step 50), whereas the magnitude remains relatively stable. Building on this insight, we propose PhaseLock, a training-free framework that preserves the valid motion priors from few-step inference throughout the denoising trajectory. Rather than relying on full-step inference for physical consistency, PhaseLock extracts a motion prior from just 2 steps and enforces it onto high-fidelity generation via Latent Delta Guidance. Our approach effectively mitigates phase degradation, improving physical consistency by an average of 6.2 points across diverse models while largely maintaining visual fidelity, with negligible overhead (1.06times time, 1.02times memory) and reduced reliance on expensive external guidance methods (sim5times time).