ビデオ生成における重力の扱いについて:検証可能な報酬を用いたニュートン力学の事後学習
What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
November 29, 2025
著者: Minh-Quan Le, Yuanzhi Zhu, Vicky Kalogeiton, Dimitris Samaras
cs.AI
要旨
近年の映像拡散モデルは視覚的に魅力的なクリップを合成できるが、物体の浮遊、加速度の漂移、衝突の不整合など、基本的な物理法則に違反するケースが頻繁に観察される。これは視覚的リアリズムと物理的リアリズムの間に持続的な隔たりがあることを示している。本論文では、検証可能な報酬に基づく映像生成のための初の物理基礎型学習後フレームワーク「NewtonRewards」を提案する。人間やVLMのフィードバックに依存する代わりに、NewtonRewardsは凍結されたユーティリティモデルを用いて生成映像から測定可能な代理指標を抽出する:光フローは速度の代理指標として、高レベル外観特徴は質量の代理指標として機能する。これらの代理指標により、2つの相補的な報酬を通じてニュートン力学の構造を明示的に強制できる:ニュートン運動学制約は等加速度 dynamics を強制し、質量保存報酬は自明な退化解を防止する。我々は新たに構築した大規模ベンチマーク「NewtonBench-60K」を用いて、5つのニュートン運動プリミティブ(自由落下、水平/放物投擲、斜面滑り降り/登り)に対してNewtonRewardsを評価した。視覚指標と物理指標の全プリミティブにおいて、NewtonRewardsは従来の学習後手法を一貫して上回り、物理的妥当性、動作の滑らかさ、時間的一貫性を改善した。さらに高さ、速度、摩擦の分布外変化下でも強固な性能を維持した。我々の結果は、物理基礎型の検証可能報酬が物理認識映像生成へのスケーラブルな道筋を提供することを示唆している。
English
Recent video diffusion models can synthesize visually compelling clips, yet often violate basic physical laws-objects float, accelerations drift, and collisions behave inconsistently-revealing a persistent gap between visual realism and physical realism. We propose NewtonRewards, the first physics-grounded post-training framework for video generation based on verifiable rewards. Instead of relying on human or VLM feedback, NewtonRewards extracts measurable proxies from generated videos using frozen utility models: optical flow serves as a proxy for velocity, while high-level appearance features serve as a proxy for mass. These proxies enable explicit enforcement of Newtonian structure through two complementary rewards: a Newtonian kinematic constraint enforcing constant-acceleration dynamics, and a mass conservation reward preventing trivial, degenerate solutions. We evaluate NewtonRewards on five Newtonian Motion Primitives (free fall, horizontal/parabolic throw, and ramp sliding down/up) using our newly constructed large-scale benchmark, NewtonBench-60K. Across all primitives in visual and physics metrics, NewtonRewards consistently improves physical plausibility, motion smoothness, and temporal coherence over prior post-training methods. It further maintains strong performance under out-of-distribution shifts in height, speed, and friction. Our results show that physics-grounded verifiable rewards offer a scalable path toward physics-aware video generation.