Физика в два шага: фиксация априорных знаний о движении до их удаления визуальным уточнением

Аннотация

Диффузионные модели преобразования изображений в видео используют входные изображения для создания визуально впечатляющего контента, однако часто генерируют движение, нарушающее физические законы. Мы обнаружили удивительный факт: генерация за 2 шага часто демонстрирует лучшую физическую согласованность, чем результат за 50 шагов из той же модели. С помощью спектрального анализа мы связываем это с эрозией фазы в процессе шумоподавления; фаза значительно ухудшается (снижаясь примерно на 18% от шага 2 к шагу 50), в то время как амплитуда остается относительно стабильной. Основываясь на этом наблюдении, мы предлагаем PhaseLock — фреймворк без обучения, который сохраняет корректные априорные представления о движении, полученные на основе малошагового вывода, на протяжении всей траектории шумоподавления. Вместо того чтобы полагаться на полный шаговый вывод для физической согласованности, PhaseLock извлекает априорное представление о движении всего за 2 шага и навязывает его генерации высокого качества с помощью Latent Delta Guidance. Наш подход эффективно смягчает ухудшение фазы, повышая физическую согласованность в среднем на 6,2 балла для различных моделей, при этом в значительной степени сохраняя визуальное качество, с незначительными накладными расходами (в 1,06 раза по времени, в 1,02 раза по памяти) и снижая зависимость от дорогостоящих внешних методов управления (примерно в 5 раз по времени).

English

Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently produce motion that violates physical laws. We reveal a surprising finding: a 2-step generation often exhibits better physical consistency than a 50-step output from the same model. Through spectral analysis, we trace this to phase erosion during denoising; the phase degrades significantly (dropping by approx 18% from step 2 to step 50), whereas the magnitude remains relatively stable. Building on this insight, we propose PhaseLock, a training-free framework that preserves the valid motion priors from few-step inference throughout the denoising trajectory. Rather than relying on full-step inference for physical consistency, PhaseLock extracts a motion prior from just 2 steps and enforces it onto high-fidelity generation via Latent Delta Guidance. Our approach effectively mitigates phase degradation, improving physical consistency by an average of 6.2 points across diverse models while largely maintaining visual fidelity, with negligible overhead (1.06times time, 1.02times memory) and reduced reliance on expensive external guidance methods (sim5times time).