비디오 생성에서 중력은 어떻게 다루어질까? 검증 가능한 보상으로 뉴턴 법칙을 사후 학습하는 방법 비디오 생성에서 중력 현상을 구현하는 것은 중요한 과제입니다. 최근 연구에서는 생성된 비디오의 물리적 정합성을 높이기 위해 뉴턴 역학 법칙을 사후 학습(post-training)에 통합하는 접근법이 제안되었습니다. 이 방법은 생성된 프레임 시퀀스가 중력 가속도, 운동량 보존 등 물리 법칙을 준수하도록 검증 가능한 보상 함수를 도입합니다. 구체적으로 생성된 객체의 궤적이 실제 물리 시뮬레이션과 일치하도록 differentiable physics engine을 활용해 보상 신호를 계산하며, 이를 통해 비현실적인 객체 움직임을 교정합니다. 이러한 물리 기반 제약 조건은 장기간 프레임 예측에서 발생하는 오차 누적을 줄이고 보다 현실적인 비디오 생성이 가능하게 합니다.
What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
November 29, 2025
저자: Minh-Quan Le, Yuanzhi Zhu, Vicky Kalogeiton, Dimitris Samaras
cs.AI
초록
최근의 비디오 확산 모델은 시각적으로 매력적인 클립을 합성할 수 있지만, 물체가 떠다니거나 가속도가 표류하며 충돌이 일관되지 않게 동작하는 등 기본적인 물리 법칙을 위반하는 경우가 많아 시각적 현실성과 물리적 현실성 사이에 지속적인 격차가 존재함을 보여줍니다. 우리는 검증 가능한 보상을 기반으로 한 최초의 물리 기반 사후 학습 비디오 생성 프레임워크인 NewtonRewards를 제안합니다. NewtonRewards는 인간 또는 VLM 피드백에 의존하는 대신, 고정된 유틸리티 모델을 사용하여 생성된 비디오에서 측정 가능한 프록시를 추출합니다: 광학 흐름은 속도의 프록시로, 고수준 외형 특징은 질량의 프록시로 기능합니다. 이러한 프록시를 통해 두 가지 상호 보완적인 보상을 통해 뉴턴 역학 구조를 명시적으로 강제합니다: 등가속도 역학을 강제하는 뉴턴 운동학적 제약과, 사소하고 퇴화된 해를 방지하는 질량 보존 보상입니다. 우리는 새로 구축한 대규모 벤치마크인 NewtonBench-60K를 사용하여 5가지 뉴턴 운동 기본 요소(자유 낙하, 수평/포물선 투척, 경사면 미끄러짐)에 대해 NewtonRewards를 평가합니다. 시각적 및 물리적 메트릭에서 모든 기본 요소에 걸쳐 NewtonRewards는 기존 사후 학습 방법 대비 물리적 타당성, 운동 부드러움, 시간적 일관성을 지속적으로 향상시킵니다. 또한 높이, 속도, 마찰력의 분포 외 변화에서도 강력한 성능을 유지합니다. 우리의 결과는 물리 기반 검증 가능한 보상이 물리 인식 비디오 생성으로 가는 확장 가능한 경로를 제공함을 보여줍니다.
English
Recent video diffusion models can synthesize visually compelling clips, yet often violate basic physical laws-objects float, accelerations drift, and collisions behave inconsistently-revealing a persistent gap between visual realism and physical realism. We propose NewtonRewards, the first physics-grounded post-training framework for video generation based on verifiable rewards. Instead of relying on human or VLM feedback, NewtonRewards extracts measurable proxies from generated videos using frozen utility models: optical flow serves as a proxy for velocity, while high-level appearance features serve as a proxy for mass. These proxies enable explicit enforcement of Newtonian structure through two complementary rewards: a Newtonian kinematic constraint enforcing constant-acceleration dynamics, and a mass conservation reward preventing trivial, degenerate solutions. We evaluate NewtonRewards on five Newtonian Motion Primitives (free fall, horizontal/parabolic throw, and ramp sliding down/up) using our newly constructed large-scale benchmark, NewtonBench-60K. Across all primitives in visual and physics metrics, NewtonRewards consistently improves physical plausibility, motion smoothness, and temporal coherence over prior post-training methods. It further maintains strong performance under out-of-distribution shifts in height, speed, and friction. Our results show that physics-grounded verifiable rewards offer a scalable path toward physics-aware video generation.