E la gravità nella generazione video? Applicazione post-addestramento delle leggi di Newton con ricompense verificabili
What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
November 29, 2025
Autori: Minh-Quan Le, Yuanzhi Zhu, Vicky Kalogeiton, Dimitris Samaras
cs.AI
Abstract
I recenti modelli di diffusione video sono in grado di sintetizzare clip visivamente accattivanti, ma spesso violano le leggi fisiche fondamentali: gli oggetti fluttuano, le accelerazioni divergono e le collisioni si comportano in modo incoerente, rivelando un divario persistente tra realismo visivo e realismo fisico. Proponiamo NewtonRewards, il primo framework di post-training basato sulla fisica per la generazione video, fondato su ricompense verificabili. Invece di affidarsi a feedback umani o di modelli linguistici visivi (VLM), NewtonRewards estrae proxy misurabili dai video generati utilizzando modelli di utilità congelati: il flusso ottico funge da proxy per la velocità, mentre le caratteristiche di aspetto di alto livello servono come proxy per la massa. Questi proxy consentono l'applicazione esplicita della struttura newtoniana attraverso due ricompense complementari: un vincolo cinematico newtoniano che impone dinamiche ad accelerazione costante e una ricompensa di conservazione della massa che previene soluzioni banali e degeneri. Valutiamo NewtonRewards su cinque Primitive di Moto Newtoniane (caduta libera, lancio orizzontale/parabolico e scivolamento lungo un piano inclinato verso il basso/l'alto) utilizzando il nostro nuovo benchmark su larga scala, NewtonBench-60K. Attraverso tutte le primitive, sia nelle metriche visive che fisiche, NewtonRewards migliora costantemente la plausibilità fisica, la fluidità del movimento e la coerenza temporale rispetto ai precedenti metodi di post-training. Inoltre, mantiene prestazioni solide sotto variazioni out-of-distribution di altezza, velocità e attrito. I nostri risultati dimostrano che le ricompense verificabili basate sulla fisica offrono un percorso scalabile verso la generazione video consapevole della fisica.
English
Recent video diffusion models can synthesize visually compelling clips, yet often violate basic physical laws-objects float, accelerations drift, and collisions behave inconsistently-revealing a persistent gap between visual realism and physical realism. We propose NewtonRewards, the first physics-grounded post-training framework for video generation based on verifiable rewards. Instead of relying on human or VLM feedback, NewtonRewards extracts measurable proxies from generated videos using frozen utility models: optical flow serves as a proxy for velocity, while high-level appearance features serve as a proxy for mass. These proxies enable explicit enforcement of Newtonian structure through two complementary rewards: a Newtonian kinematic constraint enforcing constant-acceleration dynamics, and a mass conservation reward preventing trivial, degenerate solutions. We evaluate NewtonRewards on five Newtonian Motion Primitives (free fall, horizontal/parabolic throw, and ramp sliding down/up) using our newly constructed large-scale benchmark, NewtonBench-60K. Across all primitives in visual and physics metrics, NewtonRewards consistently improves physical plausibility, motion smoothness, and temporal coherence over prior post-training methods. It further maintains strong performance under out-of-distribution shifts in height, speed, and friction. Our results show that physics-grounded verifiable rewards offer a scalable path toward physics-aware video generation.