Planung mit skizzengeführter Verifikation für physikbewusste Videogenerierung
Planning with Sketch-Guided Verification for Physics-Aware Video Generation
November 21, 2025
papers.authors: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI
papers.abstract
Aktuelle Ansätze zur Videogenerierung setzen zunehmend auf die Planung intermediärer Steuersignale wie Objekttrajektorien, um die zeitliche Kohärenz und Bewegungstreue zu verbessern. Diese Methoden verwenden jedoch überwiegend Einzelplanungen, die typischerweise auf einfache Bewegungen beschränkt sind, oder iterative Verfeinerungen, die mehrere Aufrufe des Videogenerators erfordern und somit hohe Rechenkosten verursachen. Um diese Einschränkungen zu überwinden, schlagen wir SketchVerify vor, ein trainierungsfreies, skizzenbasiertes Verifikationsframework zur Bewegungsplanung, das die Qualität der Bewegungsplanung durch dynamisch kohärentere Trajektorien (d.h. physikalisch plausible und anweisungskonforme Bewegungen) vor der vollständigen Videogenerierung verbessert. Dies wird durch eine Testzeit-Sampling- und Verifikationsschleife erreicht. Bei gegebenem Prompt und Referenzbild sagt unsere Methode mehrere Kandidaten für Bewegungspläne vorher und bewertet diese mithilfe eines Vision-Language-Verifiers, der sowohl die semantische Übereinstimmung mit der Anweisung als auch die physikalische Plausibilität gemeinsam evaluiert. Um die Bewegungsplankandidaten effizient zu bewerten, rendern wir jede Trajektorie als leichtgewichtige Videoskizze, indem Objekte über einem statischen Hintergrund kompositiert werden. Dieser Ansatz umgeht die Notwendigkeit teurer, wiederholter diffusionsbasierter Synthese und erreicht dennoch vergleichbare Leistung. Wir verfeinern den Bewegungsplan iterativ, bis ein zufriedenstellender Plan identifiziert wird, der dann an den trajektorienkonditionierten Generator zur finalen Synthese übergeben wird. Experimente auf WorldModelBench und PhyWorldBench zeigen, dass unsere Methode die Bewegungsqualität, den physikalischen Realismus und die Langzeitkonsistenz im Vergleich zu wettbewerbsfähigen Baseline-Methoden signifikant verbessert und dabei erheblich effizienter ist. Unsere Ablationsstudie zeigt weiterhin, dass eine Skalierung der Anzahl der Trajektorienkandidaten die Gesamtleistung konsistent steigert.
English
Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.