ChatPaper.aiChatPaper

Qu'en est-il de la gravité dans la génération vidéo ? Post-entraînement des lois de Newton avec des récompenses vérifiables

What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards

November 29, 2025
papers.authors: Minh-Quan Le, Yuanzhi Zhu, Vicky Kalogeiton, Dimitris Samaras
cs.AI

papers.abstract

Les modèles récents de diffusion vidéo peuvent synthétiser des séquences visuellement convaincantes, mais violent souvent les lois physiques fondamentales : les objets flottent, les accélérations dérivent et les collisions se comportent de manière incohérente, révélant un écart persistant entre le réalisme visuel et le réalisme physique. Nous proposons NewtonRewards, le premier cadre de post-formation ancré dans la physique pour la génération de vidéos, basé sur des récompenses vérifiables. Au lieu de s'appuyer sur des retours humains ou des modèles de langage visuel (VLM), NewtonRewards extrait des indicateurs mesurables des vidéos générées en utilisant des modèles utilitaires figés : le flux optique sert d'indicateur pour la vitesse, tandis que les caractéristiques d'apparence de haut niveau servent d'indicateur pour la masse. Ces indicateurs permettent l'imposition explicite d'une structure newtonienne via deux récompenses complémentaires : une contrainte cinématique newtonienne imposant une dynamique à accélération constante, et une récompense de conservation de la masse empêchant les solutions triviales et dégénérées. Nous évaluons NewtonRewards sur cinq primitives de mouvement newtonien (chute libre, lancé horizontal/parabolique, et glissement sur rampe vers le bas/haut) en utilisant notre nouveau benchmark à grande échelle, NewtonBench-60K. Sur toutes les primitives et selon les métriques visuelles et physiques, NewtonRewards améliore constamment la plausibilité physique, la fluidité du mouvement et la cohérence temporelle par rapport aux méthodes de post-formation antérieures. Il maintient également des performances solides face à des changements hors distribution concernant la hauteur, la vitesse et les frottements. Nos résultats montrent que les récompenses vérifiables ancrées dans la physique offrent une voie évolutive vers une génération de vidéos consciente des lois physiques.
English
Recent video diffusion models can synthesize visually compelling clips, yet often violate basic physical laws-objects float, accelerations drift, and collisions behave inconsistently-revealing a persistent gap between visual realism and physical realism. We propose NewtonRewards, the first physics-grounded post-training framework for video generation based on verifiable rewards. Instead of relying on human or VLM feedback, NewtonRewards extracts measurable proxies from generated videos using frozen utility models: optical flow serves as a proxy for velocity, while high-level appearance features serve as a proxy for mass. These proxies enable explicit enforcement of Newtonian structure through two complementary rewards: a Newtonian kinematic constraint enforcing constant-acceleration dynamics, and a mass conservation reward preventing trivial, degenerate solutions. We evaluate NewtonRewards on five Newtonian Motion Primitives (free fall, horizontal/parabolic throw, and ramp sliding down/up) using our newly constructed large-scale benchmark, NewtonBench-60K. Across all primitives in visual and physics metrics, NewtonRewards consistently improves physical plausibility, motion smoothness, and temporal coherence over prior post-training methods. It further maintains strong performance under out-of-distribution shifts in height, speed, and friction. Our results show that physics-grounded verifiable rewards offer a scalable path toward physics-aware video generation.
PDF391December 3, 2025