ChatPaper.aiChatPaper

Planification avec vérification guidée par esquisses pour la génération de vidéos consciente de la physique

Planning with Sketch-Guided Verification for Physics-Aware Video Generation

November 21, 2025
papers.authors: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI

papers.abstract

Les approches récentes de génération vidéo reposent de plus en plus sur la planification de signaux de contrôle intermédiaires, tels que les trajectoires d'objets, pour améliorer la cohérence temporelle et la fidélité du mouvement. Cependant, ces méthodes utilisent principalement des plans uniques généralement limités à des mouvements simples, ou un raffinement itératif qui nécessite de multiples appels au générateur vidéo, entraînant un coût computationnel élevé. Pour surmonter ces limitations, nous proposons SketchVerify, un cadre de planification basé sur la vérification d'esquisses, sans apprentissage, qui améliore la qualité de la planification du mouvement avec des trajectoires plus dynamiquement cohérentes (c'est-à-dire des mouvements physiquement plausibles et conformes à l'instruction) avant la génération complète de la vidéo, en introduisant une boucle d'échantillonnage et de vérification au moment du test. Étant donné une instruction et une image de référence, notre méthode prédit plusieurs plans de mouvement candidats et les classe à l'aide d'un vérificateur visio-linguistique qui évalue conjointement l'alignement sémantique avec l'instruction et la plausibilité physique. Pour évaluer efficacement les plans de mouvement candidats, nous rendons chaque trajectoire sous forme d'esquisse vidéo légère en compositant des objets sur un arrière-plan statique, ce qui évite le besoin d'une synthèse basée sur la diffusion, coûteuse et répétée, tout en obtenant des performances comparables. Nous affinons itérativement le plan de mouvement jusqu'à ce qu'un plan satisfaisant soit identifié, lequel est ensuite transmis au générateur conditionné par la trajectoire pour la synthèse finale. Les expériences sur WorldModelBench et PhyWorldBench démontrent que notre méthode améliore significativement la qualité du mouvement, le réalisme physique et la cohérence à long terme par rapport aux bases de référence compétitives, tout en étant substantiellement plus efficace. Notre étude d'ablation montre en outre qu'augmenter le nombre de trajectoires candidates améliore constamment les performances globales.
English
Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.
PDF22December 1, 2025