Планирование с проверкой на основе эскизов для генерации видео с учетом физических законов
Planning with Sketch-Guided Verification for Physics-Aware Video Generation
November 21, 2025
Авторы: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI
Аннотация
Современные подходы к генерации видео всё чаще используют планирование промежуточных управляющих сигналов, таких как траектории объектов, для повышения временной согласованности и достоверности движения. Однако эти методы в основном применяют одношаговое планирование, которое обычно ограничено простыми движениями, или итеративное уточнение, требующее многократных вызовов генератора видео и сопряжённое с высокими вычислительными затратами. Чтобы преодолеть эти ограничения, мы предлагаем SketchVerify — бесплатную для обучения платформу планирования на основе скетч-верификации, которая повышает качество планирования движения за счёт более динамически согласованных траекторий (т.е. физически правдоподобных и соответствующих инструкции движений) до полной генерации видео, вводя цикл сэмплирования и верификации в момент тестирования. При заданном промпте и эталонном изображении наш метод предсказывает несколько кандидатных планов движения и ранжирует их с помощью визуально-языкового верификатора, который совместно оценивает семантическое соответствие инструкции и физическую правдоподобность. Для эффективной оценки кандидатных планов движения мы визуализируем каждую траекторию в виде облегчённого видео-скетча путём композиции объектов на статичном фоне, что позволяет обойти необходимость дорогостоящего многократного синтеза на основе диффузии при сохранении сопоставимой производительности. Мы итеративно уточняем план движения до идентификации удовлетворительного варианта, который затем передаётся в генератор с условием по траектории для финального синтеза. Эксперименты на WorldModelBench и PhyWorldBench демонстрируют, что наш метод значимо улучшает качество движения, физический реализм и долгосрочную согласованность по сравнению с конкурентоспособными базовыми методами, оставаясь существенно более эффективным. Наше абляционное исследование дополнительно показывает, что увеличение количества кандидатных траекторий последовательно улучшает общую производительность.
English
Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.