Le pouls du mouvement : mesurer la fréquence d'images physique à partir de la dynamique visuelle

Résumé

Si les modèles génératifs vidéo récents ont atteint un réalisme visuel remarquable et sont explorés comme modèles du monde, une véritable simulation physique nécessite la maîtrise simultanée de l'espace et du temps. Les modèles actuels peuvent produire une cinématique visuellement fluide, mais ils manquent d'une impulsion motrice interne fiable pour ancrer ces mouvements dans une échelle temporelle cohérente et réaliste. Cette ambiguïté temporelle découle de la pratique courante qui consiste à entraîner les modèles de manière indifférenciée sur des vidéos ayant des vitesses réelles très variables, en les forçant à un taux de frames standardisé. Cela conduit à ce que nous nommons l'hallucination chronométrique : les séquences générées présentent des vitesses de mouvement physique ambiguës, instables et incontrôlables. Pour y remédier, nous proposons Visual Chronometer, un prédicteur qui restaure le nombre d'images par seconde physique (PhyFPS) directement à partir de la dynamique visuelle d'une vidéo d'entrée. Entraîné via un rééchantillonnage temporel contrôlé, notre méthode estime l'échelle temporelle réelle sous-tendue par le mouvement lui-même, contournant ainsi les métadonnées peu fiables. Pour quantifier systématiquement ce problème, nous établissons deux benchmarks, PhyFPS-Bench-Real et PhyFPS-Bench-Gen. Nos évaluations révèlent une réalité sévère : les générateurs vidéo à la pointe souffrent d'un grave désalignement du PhyFPS et d'une instabilité temporelle. Enfin, nous démontrons que l'application de corrections PhyFPS améliore significativement le caractère naturel perçu par les humains des vidéos générées par IA. Notre page projet est https://xiangbogaobarry.github.io/Visual_Chronometer/.

English

While recent generative video models have achieved remarkable visual realism and are being explored as world models, true physical simulation requires mastering both space and time. Current models can produce visually smooth kinematics, yet they lack a reliable internal motion pulse to ground these motions in a consistent, real-world time scale. This temporal ambiguity stems from the common practice of indiscriminately training on videos with vastly different real-world speeds, forcing them into standardized frame rates. This leads to what we term chronometric hallucination: generated sequences exhibit ambiguous, unstable, and uncontrollable physical motion speeds. To address this, we propose Visual Chronometer, a predictor that recovers the Physical Frames Per Second (PhyFPS) directly from the visual dynamics of an input video. Trained via controlled temporal resampling, our method estimates the true temporal scale implied by the motion itself, bypassing unreliable metadata. To systematically quantify this issue, we establish two benchmarks, PhyFPS-Bench-Real and PhyFPS-Bench-Gen. Our evaluations reveal a harsh reality: state-of-the-art video generators suffer from severe PhyFPS misalignment and temporal instability. Finally, we demonstrate that applying PhyFPS corrections significantly improves the human-perceived naturalness of AI-generated videos. Our project page is https://xiangbogaobarry.github.io/Visual_Chronometer/.

Le pouls du mouvement : mesurer la fréquence d'images physique à partir de la dynamique visuelle

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

Résumé

Support