Il Polso del Movimento: Misurare la Frequenza dei Fotogrammi Fisica dalle Dinamiche Visive

Abstract

Sebbene i recenti modelli generativi video abbiano ottenuto una notevole realismo visivo e siano esplorati come modelli del mondo, una vera simulazione fisica richiede la padronanza sia dello spazio che del tempo. I modelli attuali possono produrre una cinematica visivamente fluida, ma mancano di un impulso di movimento interno affidabile per ancorare questi movimenti a una scala temporale coerente e realistica. Questa ambiguità temporale deriva dalla pratica comune di addestrare indiscriminatamente su video con velocità del mondo reale molto diverse, costringendoli a frequenze fotogramma standardizzate. Ciò porta a ciò che definiamo allucinazione cronometrica: le sequenze generate mostrano velocità di movimento fisico ambigue, instabili e incontrollabili. Per affrontare questo problema, proponiamo Visual Chronometer, un predittore che recupera i Fotogrammi Fisici al Secondo (PhyFPS) direttamente dalle dinamiche visive di un video in input. Addestrato tramite ricampionamento temporale controllato, il nostro metodo stima la vera scala temporale implicita nel movimento stesso, bypassando metadati inaffidabili. Per quantificare sistematicamente questo problema, stabiliamo due benchmark, PhyFPS-Bench-Real e PhyFPS-Bench-Gen. Le nostre valutazioni rivelano una dura realtà: i generatori video all'avanguardia soffrono di un grave disallineamento dei PhyFPS e di instabilità temporale. Infine, dimostriamo che l'applicazione di correzioni PhyFPS migliora significativamente la naturalezza percepita dall'uomo dei video generati dall'intelligenza artificiale. La nostra pagina del progetto è https://xiangbogaobarry.github.io/Visual_Chronometer/.

English

While recent generative video models have achieved remarkable visual realism and are being explored as world models, true physical simulation requires mastering both space and time. Current models can produce visually smooth kinematics, yet they lack a reliable internal motion pulse to ground these motions in a consistent, real-world time scale. This temporal ambiguity stems from the common practice of indiscriminately training on videos with vastly different real-world speeds, forcing them into standardized frame rates. This leads to what we term chronometric hallucination: generated sequences exhibit ambiguous, unstable, and uncontrollable physical motion speeds. To address this, we propose Visual Chronometer, a predictor that recovers the Physical Frames Per Second (PhyFPS) directly from the visual dynamics of an input video. Trained via controlled temporal resampling, our method estimates the true temporal scale implied by the motion itself, bypassing unreliable metadata. To systematically quantify this issue, we establish two benchmarks, PhyFPS-Bench-Real and PhyFPS-Bench-Gen. Our evaluations reveal a harsh reality: state-of-the-art video generators suffer from severe PhyFPS misalignment and temporal instability. Finally, we demonstrate that applying PhyFPS corrections significantly improves the human-perceived naturalness of AI-generated videos. Our project page is https://xiangbogaobarry.github.io/Visual_Chronometer/.

Il Polso del Movimento: Misurare la Frequenza dei Fotogrammi Fisica dalle Dinamiche Visive

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

Abstract

Support