ChatPaper.aiChatPaper

Pianificazione con Verifica Guidata da Schizzi per la Generazione di Video Consapevoli della Fisica

Planning with Sketch-Guided Verification for Physics-Aware Video Generation

November 21, 2025
Autori: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI

Abstract

Gli approcci recenti per la generazione video si basano sempre più sulla pianificazione di segnali di controllo intermedi, come le traiettorie degli oggetti, per migliorare la coerenza temporale e la fedeltà del movimento. Tuttavia, questi metodi utilizzano per lo più piani monostadio tipicamente limitati a movimenti semplici, oppure raffinatezze iterative che richiedono molteplici chiamate al generatore video, comportando un elevato costo computazionale. Per superare queste limitazioni, proponiamo SketchVerify, un framework di pianificazione basato sulla verifica di schizzi, privo di addestramento, che migliora la qualità della pianificazione del movimento con traiettorie dinamicamente più coerenti (ovvero movimenti fisicamente plausibili e coerenti con l'istruzione) prima della generazione completa del video, introducendo un ciclo di campionamento e verifica al momento del test. Dato un prompt e un'immagine di riferimento, il nostro metodo prevede molteplici piani di movimento candidati e li classifica utilizzando un verificatore visione-linguaggio che valuta congiuntamente l'allineamento semantico con l'istruzione e la plausibilità fisica. Per valutare efficientemente i piani di movimento candidati, renderizziamo ogni traiettoria come uno schizzo video leggero componendo gli oggetti su uno sfondo statico, aggirando così la necessità di una costosa sintesi ripetuta basata sulla diffusione, pur ottenendo prestazioni comparabili. Raffiniamo iterativamente il piano di movimento finché non ne viene identificato uno soddisfacente, che viene poi passato al generatore condizionato dalla traiettoria per la sintesi finale. Gli esperimenti su WorldModelBench e PhyWorldBench dimostrano che il nostro metodo migliora significativamente la qualità del movimento, il realismo fisico e la coerenza a lungo termine rispetto a baseline competitive, risultando sostanzialmente più efficiente. Il nostro studio di ablazione mostra inoltre che aumentare il numero di traiettorie candidate migliora costantemente le prestazioni complessive.
English
Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.
PDF22December 1, 2025