ChatPaper.aiChatPaper

El Pulso del Movimiento: Medición de la Tasa de Fotogramas Física a partir de la Dinámica Visual

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

March 15, 2026
Autores: Xiangbo Gao, Mingyang Wu, Siyuan Yang, Jiongze Yu, Pardis Taghavi, Fangzhou Lin, Zhengzhong Tu
cs.AI

Resumen

Si bien los modelos generativos de video recientes han logrado un realismo visual notable y se están explorando como modelos del mundo, una verdadera simulación física requiere dominar tanto el espacio como el tiempo. Los modelos actuales pueden producir una cinemática visualmente fluida, pero carecen de un pulso de movimiento interno confiable para anclar estos movimientos en una escala de tiempo consistente y del mundo real. Esta ambigüedad temporal surge de la práctica común de entrenar indiscriminadamente con videos que tienen velocidades del mundo real muy diferentes, forzándolos a tasas de cuadro estandarizadas. Esto conduce a lo que denominamos alucinación cronométrica: las secuencias generadas exhiben velocidades de movimiento físico ambiguas, inestables e incontrolables. Para abordar esto, proponemos Visual Chronometer, un predictor que recupera los Fotogramas por Segundo Físicos (PhyFPS) directamente de la dinámica visual de un video de entrada. Entrenado mediante remuestreo temporal controlado, nuestro método estima la escala temporal verdadera implícita en el movimiento mismo, evitando metadatos no confiables. Para cuantificar sistemáticamente este problema, establecemos dos benchmarks, PhyFPS-Bench-Real y PhyFPS-Bench-Gen. Nuestras evaluaciones revelan una cruda realidad: los generadores de video de vanguardia sufren de una grave desalineación de PhyFPS e inestabilidad temporal. Finalmente, demostramos que aplicar correcciones de PhyFPS mejora significativamente la naturalidad percibida por humanos de los videos generados por IA. Nuestra página del proyecto es https://xiangbogaobarry.github.io/Visual_Chronometer/.
English
While recent generative video models have achieved remarkable visual realism and are being explored as world models, true physical simulation requires mastering both space and time. Current models can produce visually smooth kinematics, yet they lack a reliable internal motion pulse to ground these motions in a consistent, real-world time scale. This temporal ambiguity stems from the common practice of indiscriminately training on videos with vastly different real-world speeds, forcing them into standardized frame rates. This leads to what we term chronometric hallucination: generated sequences exhibit ambiguous, unstable, and uncontrollable physical motion speeds. To address this, we propose Visual Chronometer, a predictor that recovers the Physical Frames Per Second (PhyFPS) directly from the visual dynamics of an input video. Trained via controlled temporal resampling, our method estimates the true temporal scale implied by the motion itself, bypassing unreliable metadata. To systematically quantify this issue, we establish two benchmarks, PhyFPS-Bench-Real and PhyFPS-Bench-Gen. Our evaluations reveal a harsh reality: state-of-the-art video generators suffer from severe PhyFPS misalignment and temporal instability. Finally, we demonstrate that applying PhyFPS corrections significantly improves the human-perceived naturalness of AI-generated videos. Our project page is https://xiangbogaobarry.github.io/Visual_Chronometer/.
PDF102March 27, 2026