**Zur Berücksichtigung von Gravitation in der Videogenerierung: Nachträgliches Trainieren von Newtonschen Gesetzen mit verifizierbaren Belohnungsfunktionen**
What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
November 29, 2025
papers.authors: Minh-Quan Le, Yuanzhi Zhu, Vicky Kalogeiton, Dimitris Samaras
cs.AI
papers.abstract
Aktuelle Video-Diffusionsmodelle können visuell überzeugende Clips synthetisieren, verletzen jedoch häufig grundlegende physikalische Gesetze – Objekte schweben, Beschleunigungen weichen ab und Kollisionen verhalten sich inkonsistent – was eine anhaltende Kluft zwischen visuellem Realismus und physikalischem Realismus offenbart. Wir schlagen NewtonRewards vor, den ersten physikalisch fundierten Nachtrainierungsrahmen für Videogenerierung basierend auf verifizierbaren Belohnungen. Anstatt auf menschliches Feedback oder VLM-Feedback angewiesen zu sein, extrahiert NewtonRewards messbare Proxy-Werte aus generierten Videos mittels eingefrorener Hilfsmodelle: Optischer Fluss dient als Proxy für Geschwindigkeit, während hochrangige Erscheinungsmerkmale als Proxy für Masse dienen. Diese Proxy-Werte ermöglichen die explizite Durchsetzung newtonscher Strukturen durch zwei komplementäre Belohnungen: eine newtonsche kinematische Zwangsbedingung, die konstante Beschleunigungsdynamik erzwingt, und eine Massenerhaltungsbelohnung, die triviale, degenerative Lösungen verhindert. Wir evaluieren NewtonRewards an fünf newtonschen Bewegungsprimitive (freier Fall, horizontaler/parabolischer Wurf und Herab-/Hinaufrutschen auf einer Rampe) unter Verwendung unseres neu erstellten umfangreichen Benchmarks, NewtonBench-60K. Über alle Primitive hinweg, gemessen an visuellen und physikalischen Metriken, verbessert NewtonRewards konsistent die physikalische Plausibilität, Bewegungsglätte und zeitliche Kohärenz gegenüber bisherigen Nachtrainierungsmethoden. Es behält zudem eine hohe Leistung bei Out-of-Distribution-Verschiebungen in Höhe, Geschwindigkeit und Reibung bei. Unsere Ergebnisse zeigen, dass physikalisch fundierte, verifizierbare Belohnungen einen skalierbaren Weg zur physikbewussten Videogenerierung bieten.
English
Recent video diffusion models can synthesize visually compelling clips, yet often violate basic physical laws-objects float, accelerations drift, and collisions behave inconsistently-revealing a persistent gap between visual realism and physical realism. We propose NewtonRewards, the first physics-grounded post-training framework for video generation based on verifiable rewards. Instead of relying on human or VLM feedback, NewtonRewards extracts measurable proxies from generated videos using frozen utility models: optical flow serves as a proxy for velocity, while high-level appearance features serve as a proxy for mass. These proxies enable explicit enforcement of Newtonian structure through two complementary rewards: a Newtonian kinematic constraint enforcing constant-acceleration dynamics, and a mass conservation reward preventing trivial, degenerate solutions. We evaluate NewtonRewards on five Newtonian Motion Primitives (free fall, horizontal/parabolic throw, and ramp sliding down/up) using our newly constructed large-scale benchmark, NewtonBench-60K. Across all primitives in visual and physics metrics, NewtonRewards consistently improves physical plausibility, motion smoothness, and temporal coherence over prior post-training methods. It further maintains strong performance under out-of-distribution shifts in height, speed, and friction. Our results show that physics-grounded verifiable rewards offer a scalable path toward physics-aware video generation.