Plannen met Schets-Gestuurde Verificatie voor Natuurkundig Bewuste Videogeneratie
Planning with Sketch-Guided Verification for Physics-Aware Video Generation
November 21, 2025
Auteurs: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI
Samenvatting
Recente methoden voor videogeneratie maken in toenemende mate gebruik van het plannen van tussenliggende controlesignalen, zoals objecttrajecten, om temporele coherentie en bewegingsnauwkeurigheid te verbeteren. Deze methoden hanteren echter voornamelijk eenmalige plannen die doorgaans beperkt zijn tot eenvoudige bewegingen, of iteratieve verfijning waarvoor meerdere aanroepen van de videogenerator nodig zijn, wat hoge rekenkosten met zich meebrengt. Om deze beperkingen te overwinnen, stellen we SketchVerify voor, een trainingsvrij, op schets-verificatie gebaseerd planningsraamwerk dat de kwaliteit van bewegingsplanning verbetert met dynamisch coherentere trajecten (d.w.z. fysisch plausibele en instructie-conforme bewegingen) vóór de volledige videogeneratie, door een test-time sampling- en verificatielus te introduceren. Gegeven een prompt en een referentiebeeld voorspelt onze methode meerdere kandidaat-bewegingsplannen en rangschikt deze met behulp van een vision-language-verifier die zowel de semantische afstemming met de instructie als de fysische plausibiliteit gezamenlijk evalueert. Om kandidaat-bewegingsplannen efficiënt te scoren, renderen we elk traject als een lichtgewicht videoschets door objecten over een statische achtergrond te compositen, waardoor de noodzaak van dure, herhaalde op diffusie gebaseerde synthese wordt omzeild, terwijl vergelijkbare prestaties worden bereikt. We verfijnen het bewegingsplan iteratief tot een bevredigend plan is geïdentificeerd, dat vervolgens wordt doorgegeven aan de traject-geconditioneerde generator voor de uiteindelijke synthese. Experimenten op WorldModelBench en PhyWorldBench tonen aan dat onze methode de bewegingskwaliteit, fysische realiteit en langetermijnconsistentie aanzienlijk verbetert in vergelijking met competitieve baseline-methoden, terwijl ze aanzienlijk efficiënter is. Onze ablatiestudie toont verder aan dat het opschalen van het aantal trajectkandidaten de algehele prestaties consistent verbetert.
English
Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.