Ритм движения: измерение физической частоты кадров на основе визуальной динамики

Аннотация

Хотя современные генеративные модели видео достигли впечатляющего визуального реализма и исследуются в качестве моделей мира, подлинное физическое моделирование требует овладения как пространством, так и временем. Современные модели способны создавать визуально плавную кинематику, однако им не хватает надежного внутреннего временного импульса, чтобы привязать эти движения к последовательной, реальной временной шкале. Эта временная неопределенность проистекает из распространенной практики неразборчивого обучения на видео с сильно различающейся скоростью в реальном мире, что заставляет приводить их к стандартизированной частоте кадров. Это приводит к тому, что мы называем хронометрической галлюцинацией: сгенерированные последовательности демонстрируют неоднозначные, нестабильные и неконтролируемые скорости физического движения. Чтобы решить эту проблему, мы предлагаем Visual Chronometer — предиктор, который восстанавливает Физические Кадры в Секунду (PhyFPS) непосредственно из визуальной динамики входного видео. Наша методика, обученная с помощью контролируемого временного ресэмплинга, оценивает истинный временной масштаб, подразумеваемый самим движением, в обход ненадежных метаданных. Для систематической количественной оценки этой проблемы мы создали два бенчмарка: PhyFPS-Bench-Real и PhyFPS-Bench-Gen. Наши оценки выявляют суровую реальность: передовые генераторы видео страдают от серьезного несоответствия PhyFPS и временной нестабильности. Наконец, мы показываем, что применение коррекции PhyFPS значительно улучшает естественность видео, сгенерированных ИИ, с точки зрения восприятия человеком. Страница проекта доступна по адресу: https://xiangbogaobarry.github.io/Visual_Chronometer/.

English

While recent generative video models have achieved remarkable visual realism and are being explored as world models, true physical simulation requires mastering both space and time. Current models can produce visually smooth kinematics, yet they lack a reliable internal motion pulse to ground these motions in a consistent, real-world time scale. This temporal ambiguity stems from the common practice of indiscriminately training on videos with vastly different real-world speeds, forcing them into standardized frame rates. This leads to what we term chronometric hallucination: generated sequences exhibit ambiguous, unstable, and uncontrollable physical motion speeds. To address this, we propose Visual Chronometer, a predictor that recovers the Physical Frames Per Second (PhyFPS) directly from the visual dynamics of an input video. Trained via controlled temporal resampling, our method estimates the true temporal scale implied by the motion itself, bypassing unreliable metadata. To systematically quantify this issue, we establish two benchmarks, PhyFPS-Bench-Real and PhyFPS-Bench-Gen. Our evaluations reveal a harsh reality: state-of-the-art video generators suffer from severe PhyFPS misalignment and temporal instability. Finally, we demonstrate that applying PhyFPS corrections significantly improves the human-perceived naturalness of AI-generated videos. Our project page is https://xiangbogaobarry.github.io/Visual_Chronometer/.

Ритм движения: измерение физической частоты кадров на основе визуальной динамики

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

Аннотация

Support