Что насчет гравитации в генерации видео? Посттренировочное применение законов Ньютона с верифицируемыми наградами
What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
November 29, 2025
Авторы: Minh-Quan Le, Yuanzhi Zhu, Vicky Kalogeiton, Dimitris Samaras
cs.AI
Аннотация
Современные модели диффузии видео способны синтезировать визуально убедительные ролики, однако часто нарушают фундаментальные законы физики: объекты парят в воздухе, ускорения дрейфуют, а столкновения происходят непоследовательно, что выявляет устойчивый разрыв между визуальным и физическим реализмом. Мы предлагаем NewtonRewards — первую физически обоснованную пост-обработочную архитектуру для генерации видео, основанную на верифицируемых вознаграждениях. Вместо опоры на обратную связь от человека или VLM, NewtonRewards извлекает из сгенерированных видео измеримые прокси-метрики с помощью замороженных вспомогательных моделей: оптический поток служит прокси для скорости, а высокоуровневые признаки внешнего вида — прокси для массы. Эти прокси позволяют явно применять ньютоновскую структуру через два взаимодополняющих вознаграждения: кинематическое ограничение Ньютона, обеспечивающее динамику с постоянным ускорением, и вознаграждение за сохранение массы, предотвращающее тривиальные вырожденные решения. Мы оцениваем NewtonRewards на пяти примитивах ньютоновского движения (свободное падение, горизонтальное/параболическое бросание и скольжение вниз/вверх по наклонной плоскости) с использованием нашего нового масштабного бенчмарка NewtonBench-60K. По всем примитивам в визуальных и физических метриках NewtonRewards последовательно улучшает физическую правдоподобность, плавность движения и временную согласованность по сравнению с предыдущими пост-обработочными методами. Кроме того, метод сохраняет высокую производительность при сдвигах распределения по высоте, скорости и трению. Наши результаты демонстрируют, что физически обоснованные верифицируемые вознаграждения открывают масштабируемый путь к генерации видео с учётом физических законов.
English
Recent video diffusion models can synthesize visually compelling clips, yet often violate basic physical laws-objects float, accelerations drift, and collisions behave inconsistently-revealing a persistent gap between visual realism and physical realism. We propose NewtonRewards, the first physics-grounded post-training framework for video generation based on verifiable rewards. Instead of relying on human or VLM feedback, NewtonRewards extracts measurable proxies from generated videos using frozen utility models: optical flow serves as a proxy for velocity, while high-level appearance features serve as a proxy for mass. These proxies enable explicit enforcement of Newtonian structure through two complementary rewards: a Newtonian kinematic constraint enforcing constant-acceleration dynamics, and a mass conservation reward preventing trivial, degenerate solutions. We evaluate NewtonRewards on five Newtonian Motion Primitives (free fall, horizontal/parabolic throw, and ramp sliding down/up) using our newly constructed large-scale benchmark, NewtonBench-60K. Across all primitives in visual and physics metrics, NewtonRewards consistently improves physical plausibility, motion smoothness, and temporal coherence over prior post-training methods. It further maintains strong performance under out-of-distribution shifts in height, speed, and friction. Our results show that physics-grounded verifiable rewards offer a scalable path toward physics-aware video generation.