물리 인식 비디오 생성을 위한 스케치 기반 검증 계획
Planning with Sketch-Guided Verification for Physics-Aware Video Generation
November 21, 2025
저자: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI
초록
최근 비디오 생성 방법론들은 시간적 일관성과 움직임 정확도를 향상시키기 위해 객체 궤적과 같은 중간 제어 신호를 계획하는 방식으로 점점 더 발전하고 있습니다. 그러나 이러한 방법들은 대부분 단순한 움직임에 국한되는 일회성 계획을 사용하거나, 비디오 생성기를 여러 번 호출해야 하는 반복 정제 방식을 채택하여 높은 계산 비용이 발생합니다. 이러한 한계를 극복하기 위해 본 논문에서는 테스트 타임 샘플링 및 검증 루프를 도입하여 최종 비디오 생성 전에 보다 동적으로 일관된 궤적(즉, 물리적으로 타당하고 지시 사항과 일치하는 움직임)을 통해 움직임 계획 품질을 향상시키는 학습이 필요 없는 스케치-검증 기반 계획 프레임워크인 SketchVerify를 제안합니다. 주어진 프롬프트와 참조 이미지를 바탕으로, 본 방법론은 여러 후보 움직임 계획을 예측하고 지시 사항과의 의미론적 정렬 및 물리적 타당성을 함께 평가하는 시각-언어 검증기를 사용하여 순위를 매깁니다. 후보 움직임 계획을 효율적으로 평가하기 위해 각 궤적을 정적 배경 위에 객체를 합성하여 경량화된 비디오 스케치로 렌더링하며, 이는 고비용의 반복적인 디퓨전 기반 합성 과정 없이도 유사한 성능을 달성합니다. 만족스러운 움직임 계획이 확인될 때까지 이를 반복적으로 정제한 후, 해당 계획을 궤적 조건부 생성기에 전달하여 최종 합성을 수행합니다. WorldModelBench와 PhyWorldBench에서의 실험 결과, 본 방법론이 경쟁력 있는 베이스라인 대비 움직임 품질, 물리적 현실감, 장기적 일관성을 크게 향상시키면서도 훨씬 더 효율적임을 입증했습니다. 추가로 수행한 절제 연구는 궤적 후보의 수를 확장하면 전반적인 성능이 지속적으로 향상됨을 보여줍니다.
English
Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.