## E a Gravidade na Geração de Vídeos? Pós-Treinamento das Leis de Newton com Recompensas Verificáveis **Resumo:** A geração de vídeo controlada por física permanece um desafio significativo. Embora os modelos de difusão tenham demonstrado capacidades impressionantes, eles frequentemente carecem de uma compreensão física fundamental, resultando em vídeos com dinâmicas irrealistas. Este trabalho investiga a integração de princípios físicos, especificamente as Leis de Newton do movimento e a gravidade, em modelos de geração de vídeo já treinados. Propomos um método de pós-treinamento que utiliza funções de recompensa verificáveis, derivadas diretamente das equações da física, para guiar o modelo de geração a produzir sequências visualmente coerentes e fisicamente plausíveis. Nossa abordagem não requer re-treinamento massivo do modelo base, mas sim um refinamento orientado por restrições físicas. Avaliações quantitativas e qualitativas em conjuntos de dados sintéticos e do mundo real demonstram que nosso método melhora significativamente a aderência física dos vídeos gerados, particularmente em cenários envolvendo movimento projetil, colisões e interações gravitacionais, sem comprometer a qualidade visual. **Palavras-chave:** Geração de Vídeo, Física, Leis de Newton, Gravidade, Pós-Treinamento, Aprendizado por Reforço, Recompensas Verificáveis, Modelos de Difusão.

Resumo

Os recentes modelos de difusão de vídeo podem sintetizar clipes visualmente convincentes, mas frequentemente violam leis físicas básicas - objetos flutuam, acelerações desviam-se e colisões comportam-se de forma inconsistente - revelando uma lacuna persistente entre o realismo visual e o realismo físico. Propomos o NewtonRewards, o primeiro *framework* de pós-treinamento fundamentado na física para geração de vídeo baseado em recompensas verificáveis. Em vez de depender de *feedback* humano ou de *VLMs* (Modelos de Linguagem Visual), o NewtonRewards extrai *proxies* mensuráveis dos vídeos gerados utilizando modelos utilitários congelados: o fluxo ótico serve como *proxy* para a velocidade, enquanto características de aparência de alto nível servem como *proxy* para a massa. Estes *proxies* permitem a aplicação explícita da estrutura Newtoniana através de duas recompensas complementares: uma restrição cinemática Newtoniana que impõe dinâmicas de aceleração constante, e uma recompensa de conservação de massa que evita soluções triviais e degeneradas. Avaliamos o NewtonRewards em cinco Primitivas de Movimento Newtoniano (queda livre, lançamento horizontal/parabólico e deslizamento em rampa para baixo/cima) usando o nosso novo *benchmark* de larga escala, o NewtonBench-60K. Em todas as primitivas, tanto em métricas visuais como físicas, o NewtonRewards melhora consistentemente a plausibilidade física, a suavidade do movimento e a coerência temporal em relação aos métodos de pós-treinamento anteriores. Mantém ainda um desempenho forte sob mudanças de distribuição (*out-of-distribution*) em altura, velocidade e atrito. Os nossos resultados mostram que recompensas verificáveis fundamentadas na física oferecem um caminho escalável para a geração de vídeo com consciência física.

English

Recent video diffusion models can synthesize visually compelling clips, yet often violate basic physical laws-objects float, accelerations drift, and collisions behave inconsistently-revealing a persistent gap between visual realism and physical realism. We propose NewtonRewards, the first physics-grounded post-training framework for video generation based on verifiable rewards. Instead of relying on human or VLM feedback, NewtonRewards extracts measurable proxies from generated videos using frozen utility models: optical flow serves as a proxy for velocity, while high-level appearance features serve as a proxy for mass. These proxies enable explicit enforcement of Newtonian structure through two complementary rewards: a Newtonian kinematic constraint enforcing constant-acceleration dynamics, and a mass conservation reward preventing trivial, degenerate solutions. We evaluate NewtonRewards on five Newtonian Motion Primitives (free fall, horizontal/parabolic throw, and ramp sliding down/up) using our newly constructed large-scale benchmark, NewtonBench-60K. Across all primitives in visual and physics metrics, NewtonRewards consistently improves physical plausibility, motion smoothness, and temporal coherence over prior post-training methods. It further maintains strong performance under out-of-distribution shifts in height, speed, and friction. Our results show that physics-grounded verifiable rewards offer a scalable path toward physics-aware video generation.