ChatPaper.aiChatPaper

運動の鼓動:視覚的ダイナミクスから物理フレームレートを測定する

The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics

March 15, 2026
著者: Xiangbo Gao, Mingyang Wu, Siyuan Yang, Jiongze Yu, Pardis Taghavi, Fangzhou Lin, Zhengzhong Tu
cs.AI

要旨

近年の生成的ビデオモデルは、視覚的なリアリズムにおいて目覚ましい進歩を遂げ、世界モデルとしての探求が進められている。しかし、真の物理シミュレーションには、空間と時間の両方を掌握することが必要である。現在のモデルは視覚的に滑らかな運動学を生成できるが、これらの動きを一貫した現実世界の時間尺度に根ざすための信頼できる内部の「運動パルス」を欠いている。この時間的な曖昧さは、実世界での速度が大きく異なるビデオを区別なく、標準化されたフレームレートに強制的に変換して学習させる一般的な手法に起因する。これにより、我々が「時間的錯誤(chronometric hallucination)」と呼ぶ現象が生じる。生成された映像は、曖昧で不安定かつ制御不能な物理的运动速度を示すのである。 この問題に対処するため、我々はVisual Chronometerを提案する。これは、入力ビデオの視覚的ダイナミクスから直接、物理的フレームレート(PhyFPS)を復元する予測器である。制御された時間的リサンプリングを用いて学習された本手法は、信頼性の低いメタデータに依存せず、運動そのものが暗示する真の時間尺度を推定する。この問題を体系的に定量化するため、PhyFPS-Bench-RealとPhyFPS-Bench-Genという2つのベンチマークを確立した。評価により、最先端のビデオ生成モデルが深刻なPhyFPSの不整合と時間的不安定性に悩まされているという厳しい現実が明らかになった。最後に、PhyFPS補正を適用することで、AI生成ビデオの人間が知覚する自然さが大幅に向上することを実証する。プロジェクトページはhttps://xiangbogaobarry.github.io/Visual_Chronometer/である。
English
While recent generative video models have achieved remarkable visual realism and are being explored as world models, true physical simulation requires mastering both space and time. Current models can produce visually smooth kinematics, yet they lack a reliable internal motion pulse to ground these motions in a consistent, real-world time scale. This temporal ambiguity stems from the common practice of indiscriminately training on videos with vastly different real-world speeds, forcing them into standardized frame rates. This leads to what we term chronometric hallucination: generated sequences exhibit ambiguous, unstable, and uncontrollable physical motion speeds. To address this, we propose Visual Chronometer, a predictor that recovers the Physical Frames Per Second (PhyFPS) directly from the visual dynamics of an input video. Trained via controlled temporal resampling, our method estimates the true temporal scale implied by the motion itself, bypassing unreliable metadata. To systematically quantify this issue, we establish two benchmarks, PhyFPS-Bench-Real and PhyFPS-Bench-Gen. Our evaluations reveal a harsh reality: state-of-the-art video generators suffer from severe PhyFPS misalignment and temporal instability. Finally, we demonstrate that applying PhyFPS corrections significantly improves the human-perceived naturalness of AI-generated videos. Our project page is https://xiangbogaobarry.github.io/Visual_Chronometer/.
PDF102March 27, 2026