¿Y qué hay de la gravedad en la generación de vídeo? Post-entrenamiento de las Leyes de Newton con Recompensas Verificables
What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
November 29, 2025
Autores: Minh-Quan Le, Yuanzhi Zhu, Vicky Kalogeiton, Dimitris Samaras
cs.AI
Resumen
Los modelos recientes de difusión de video pueden sintetizar clips visualmente atractivos, pero a menudo violan leyes físicas básicas: los objetos flotan, las aceleraciones se desvían y las colisiones se comportan de manera inconsistente, lo que revela una brecha persistente entre el realismo visual y el realismo físico. Proponemos NewtonRewards, el primer marco de post-entrenamiento basado en física para la generación de video que utiliza recompensas verificables. En lugar de depender de retroalimentación humana o de modelos de lenguaje visual (VLM), NewtonRewards extrae proxies medibles de los videos generados utilizando modelos utilitarios congelados: el flujo óptico sirve como proxy para la velocidad, mientras que las características de apariencia de alto nivel sirven como proxy para la masa. Estos proxies permiten la aplicación explícita de la estructura newtoniana mediante dos recompensas complementarias: una restricción cinemática newtoniana que impone dinámicas de aceleración constante, y una recompensa de conservación de la masa que evita soluciones triviales y degeneradas. Evaluamos NewtonRewards en cinco Primitivas de Movimiento Newtoniano (caída libre, lanzamiento horizontal/parabólico y deslizamiento en rampa hacia abajo/arriba) utilizando nuestro nuevo benchmark a gran escala, NewtonBench-60K. En todas las primitivas y en métricas visuales y físicas, NewtonRewards mejora consistentemente la plausibilidad física, la suavidad del movimiento y la coherencia temporal en comparación con métodos de post-entrenamiento anteriores. Además, mantiene un rendimiento sólido bajo cambios fuera de distribución en altura, velocidad y fricción. Nuestros resultados demuestran que las recompensas verificables basadas en física ofrecen un camino escalable hacia la generación de video consciente de la física.
English
Recent video diffusion models can synthesize visually compelling clips, yet often violate basic physical laws-objects float, accelerations drift, and collisions behave inconsistently-revealing a persistent gap between visual realism and physical realism. We propose NewtonRewards, the first physics-grounded post-training framework for video generation based on verifiable rewards. Instead of relying on human or VLM feedback, NewtonRewards extracts measurable proxies from generated videos using frozen utility models: optical flow serves as a proxy for velocity, while high-level appearance features serve as a proxy for mass. These proxies enable explicit enforcement of Newtonian structure through two complementary rewards: a Newtonian kinematic constraint enforcing constant-acceleration dynamics, and a mass conservation reward preventing trivial, degenerate solutions. We evaluate NewtonRewards on five Newtonian Motion Primitives (free fall, horizontal/parabolic throw, and ramp sliding down/up) using our newly constructed large-scale benchmark, NewtonBench-60K. Across all primitives in visual and physics metrics, NewtonRewards consistently improves physical plausibility, motion smoothness, and temporal coherence over prior post-training methods. It further maintains strong performance under out-of-distribution shifts in height, speed, and friction. Our results show that physics-grounded verifiable rewards offer a scalable path toward physics-aware video generation.