Hoe zit het met zwaartekracht in videogeneratie? Newton's Wetten Nabootsen met Verifieerbare Beloningen
What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
November 29, 2025
Auteurs: Minh-Quan Le, Yuanzhi Zhu, Vicky Kalogeiton, Dimitris Samaras
cs.AI
Samenvatting
Recente videodiffusiemodellen kunnen visueel overtuigende clips genereren, maar overtreden vaak fundamentele natuurkundige wetten: objecten zweven, versnellingen vertonen drift en botsingen gedragen zich inconsistent. Dit onthult een hardnekkige kloof tussen visuele realiteit en fysieke realiteit. Wij stellen NewtonRewards voor, het eerste op natuurkunde gebaseerde post-training raamwerk voor videogeneratie op basis van verifieerbare beloningen. In plaats van te vertrouwen op menselijke feedback of feedback van Vision-Language Models, extraheert NewtonRewards meetbare proxies gegenereerde video's met behulp van bevroren utility-modellen: optische stroming dient als proxy voor snelheid, terwijl hoogwaardige uiterlijkkenmerken als proxy voor massa fungeren. Deze proxies maken expliciete handhaving van Newtoniaanse structuren mogelijk via twee complementaire beloningen: een Newtoniaanse kinematische beperking die constante-versnellingsdynamica afdwingt, en een massabehoudsbeloning die triviale, gedegenereerde oplossingen voorkomt. Wij evalueren NewtonRewards op vijf Newtoniaanse bewegingsprimitieven (vrije val, horizontale/parabolische worp, en glijden van een helling af/op) met behulp van onze nieuw geconstrueerde grootschalige benchmark, NewtonBench-60K. Over alle primitieven heen, in zowel visuele als fysieke metrieken, verbetert NewtonRewards consistent de fysieke geloofwaardigheid, bewegingsvloeiendheid en temporele coherentie ten opzichte van eerdere post-training methoden. Het behoudt tevens sterke prestaties onder out-of-distribution verschuivingen in hoogte, snelheid en wrijving. Onze resultaten tonen aan dat op natuurkunde gebaseerde verifieerbare beloningen een schaalbare weg bieden naar fysiek-bewuste videogeneratie.
English
Recent video diffusion models can synthesize visually compelling clips, yet often violate basic physical laws-objects float, accelerations drift, and collisions behave inconsistently-revealing a persistent gap between visual realism and physical realism. We propose NewtonRewards, the first physics-grounded post-training framework for video generation based on verifiable rewards. Instead of relying on human or VLM feedback, NewtonRewards extracts measurable proxies from generated videos using frozen utility models: optical flow serves as a proxy for velocity, while high-level appearance features serve as a proxy for mass. These proxies enable explicit enforcement of Newtonian structure through two complementary rewards: a Newtonian kinematic constraint enforcing constant-acceleration dynamics, and a mass conservation reward preventing trivial, degenerate solutions. We evaluate NewtonRewards on five Newtonian Motion Primitives (free fall, horizontal/parabolic throw, and ramp sliding down/up) using our newly constructed large-scale benchmark, NewtonBench-60K. Across all primitives in visual and physics metrics, NewtonRewards consistently improves physical plausibility, motion smoothness, and temporal coherence over prior post-training methods. It further maintains strong performance under out-of-distribution shifts in height, speed, and friction. Our results show that physics-grounded verifiable rewards offer a scalable path toward physics-aware video generation.