O Pulso do Movimento: Medindo a Taxa de Frames Física a Partir da Dinâmica Visual

Resumo

Embora os modelos generativos de vídeo recentes tenham alcançado um realismo visual notável e estejam sendo explorados como modelos de mundo, uma verdadeira simulação física requer o domínio do espaço e do tempo. Os modelos atuais podem produzir cinemáticas visualmente suaves, mas carecem de um pulso de movimento interno confiável para ancorar esses movimentos em uma escala de tempo consistente e do mundo real. Essa ambiguidade temporal decorre da prática comum de treinar indiscriminadamente com vídeos de velocidades reais muito diferentes, forçando-os a taxas de quadros padronizadas. Isso leva ao que denominamos *alucinação cronométrica*: sequências geradas exibem velocidades de movimento físico ambíguas, instáveis e incontroláveis. Para resolver isso, propomos o Visual Chronometer, um preditor que recupera os Quadros Por Segundo Físicos (PhyFPS) diretamente da dinâmica visual de um vídeo de entrada. Treinado por meio de reamostragem temporal controlada, nosso método estima a escala temporal verdadeira implícita no próprio movimento, contornando metadados não confiáveis. Para quantificar sistematicamente esse problema, estabelecemos dois benchmarks, PhyFPS-Bench-Real e PhyFPS-Bench-Gen. Nossas avaliações revelam uma realidade dura: os geradores de vídeo state-of-the-art sofrem com grave desalinhamento de PhyFPS e instabilidade temporal. Por fim, demonstramos que a aplicação de correções de PhyFPS melhora significativamente a naturalidade percebida por humanos em vídeos gerados por IA. Nossa página do projeto é https://xiangbogaobarry.github.io/Visual_Chronometer/.

English

While recent generative video models have achieved remarkable visual realism and are being explored as world models, true physical simulation requires mastering both space and time. Current models can produce visually smooth kinematics, yet they lack a reliable internal motion pulse to ground these motions in a consistent, real-world time scale. This temporal ambiguity stems from the common practice of indiscriminately training on videos with vastly different real-world speeds, forcing them into standardized frame rates. This leads to what we term chronometric hallucination: generated sequences exhibit ambiguous, unstable, and uncontrollable physical motion speeds. To address this, we propose Visual Chronometer, a predictor that recovers the Physical Frames Per Second (PhyFPS) directly from the visual dynamics of an input video. Trained via controlled temporal resampling, our method estimates the true temporal scale implied by the motion itself, bypassing unreliable metadata. To systematically quantify this issue, we establish two benchmarks, PhyFPS-Bench-Real and PhyFPS-Bench-Gen. Our evaluations reveal a harsh reality: state-of-the-art video generators suffer from severe PhyFPS misalignment and temporal instability. Finally, we demonstrate that applying PhyFPS corrections significantly improves the human-perceived naturalness of AI-generated videos. Our project page is https://xiangbogaobarry.github.io/Visual_Chronometer/.

O Pulso do Movimento: Medindo a Taxa de Frames Física a Partir da Dinâmica Visual

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

Resumo

Support