ChatPaper.aiChatPaper

スケッチ誘導検証による物理法則を考慮したビデオ生成計画

Planning with Sketch-Guided Verification for Physics-Aware Video Generation

November 21, 2025
著者: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI

要旨

近年のビデオ生成手法では、時間的一貫性と動作の忠実性を向上させるため、物体軌道などの中間制御信号を計画することが増えている。しかし、これらの手法は単一の計画を用いることが多く、単純な動作に限定されがちである。あるいは、反復的な改善を行う場合でも、ビデオ生成器を複数回呼び出す必要があり、計算コストが高くなる。これらの制限を克服するため、我々はSketchVerifyを提案する。これは学習を必要としない、スケッチ検証に基づく計画フレームワークであり、テスト時サンプリングと検証ループを導入することで、完全なビデオ生成に先立って、より動的に一貫した軌道(物理的に妥当で指示に合致する動作)を用いて動作計画の品質を向上させる。プロンプトと参照画像が与えられると、本手法は複数の候補動作計画を予測し、指示との意味的整合性と物理的妥当性を同時に評価する視覚言語検証器を用いてそれらをランク付けする。候補動作計画を効率的に評価するため、各軌道を静的背景上に物体を合成した軽量なビデオスケッチとしてレンダリングする。これにより、高価な拡散ベースの合成を繰り返す必要性を回避しつつ、同等の性能を達成する。満足のいく計画が特定されるまで動作計画を反復的に改善し、その後、軌道条件付き生成器に渡して最終合成を行う。WorldModelBenchとPhyWorldBenchを用いた実験により、本手法が競合するベースラインと比較して、動作の質、物理的真实感、長期的な一貫性を大幅に改善し、かつ大幅に効率的であることを実証した。アブレーション研究はさらに、軌道候補の数を増やすことが全体の性能を一貫して向上させることを示している。
English
Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.
PDF22December 1, 2025