Der Puls der Bewegung: Messung der physikalischen Bildrate aus visueller Dynamik

Zusammenfassung

Während neuere generative Videomodelle bemerkenswerte visuelle Realitätsnähe erreicht haben und als Weltmodelle erforscht werden, erfordert eine echte physikalische Simulation die Beherrschung von Raum und Zeit. Aktuelle Modelle können visuell flüssige Kinematik erzeugen, doch es mangelt ihnen an einem zuverlässigen internen Bewegungspuls, um diese Bewegungen auf einer konsistenten, realweltlichen Zeitskala zu verankern. Diese zeitliche Mehrdeutigkeit rührt von der gängigen Praxis her, wahllos mit Videos sehr unterschiedlicher realer Geschwindigkeiten zu trainieren und diese auf standardisierte Bildraten zu normen. Dies führt zu dem, was wir als *chronometrische Halluzination* bezeichnen: generierte Sequenzen weisen mehrdeutige, instabile und unkontrollierbare physikalische Bewegungsgeschwindigkeiten auf. Um dies zu beheben, schlagen wir den *Visual Chronometer* vor, einen Prädiktor, der die *Physical Frames Per Second (PhyFPS)* direkt aus der visuellen Dynamik eines Eingabevideos rekonstruiert. Unser Verfahren, das durch kontrollierte zeitliche Neubeprobung trainiert wird, schätzt die wahre Zeitskala, die von der Bewegung selbst impliziert wird, und umgeht dabei unzuverlässige Metadaten. Um dieses Problem systematisch zu quantifizieren, etablieren wir zwei Benchmarks: *PhyFPS-Bench-Real* und *PhyFPS-Bench-Gen*. Unsere Auswertungen offenbaren eine ernüchternde Realität: state-of-the-art Videogeneratoren leiden unter schwerwiegender PhyFPS-Fehlausrichtung und zeitlicher Instabilität. Abschließend zeigen wir, dass die Anwendung von PhyFPS-Korrekturen die menschlich wahrgenommene Natürlichkeit von KI-generierten Videos signifikant verbessert. Unsere Projektseite ist https://xiangbogaobarry.github.io/Visual_Chronometer/.

English

While recent generative video models have achieved remarkable visual realism and are being explored as world models, true physical simulation requires mastering both space and time. Current models can produce visually smooth kinematics, yet they lack a reliable internal motion pulse to ground these motions in a consistent, real-world time scale. This temporal ambiguity stems from the common practice of indiscriminately training on videos with vastly different real-world speeds, forcing them into standardized frame rates. This leads to what we term chronometric hallucination: generated sequences exhibit ambiguous, unstable, and uncontrollable physical motion speeds. To address this, we propose Visual Chronometer, a predictor that recovers the Physical Frames Per Second (PhyFPS) directly from the visual dynamics of an input video. Trained via controlled temporal resampling, our method estimates the true temporal scale implied by the motion itself, bypassing unreliable metadata. To systematically quantify this issue, we establish two benchmarks, PhyFPS-Bench-Real and PhyFPS-Bench-Gen. Our evaluations reveal a harsh reality: state-of-the-art video generators suffer from severe PhyFPS misalignment and temporal instability. Finally, we demonstrate that applying PhyFPS corrections significantly improves the human-perceived naturalness of AI-generated videos. Our project page is https://xiangbogaobarry.github.io/Visual_Chronometer/.

Der Puls der Bewegung: Messung der physikalischen Bildrate aus visueller Dynamik

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

Zusammenfassung

Support