Planejamento com Verificação Guiada por Esboço para Geração de Vídeo Consciente da Física
Planning with Sketch-Guided Verification for Physics-Aware Video Generation
November 21, 2025
Autores: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI
Resumo
As abordagens recentes de geração de vídeo dependem cada vez mais do planejamento de sinais de controle intermediários, como trajetórias de objetos, para melhorar a coerência temporal e a fidelidade do movimento. No entanto, esses métodos empregam principalmente planos únicos que geralmente se limitam a movimentos simples, ou refinamento iterativo que requer múltiplas chamadas ao gerador de vídeo, incorrendo em alto custo computacional. Para superar essas limitações, propomos o SketchVerify, uma estrutura de planejamento baseada em esboço-verificação, livre de treinamento, que melhora a qualidade do planejamento de movimento com trajetórias mais dinamicamente coerentes (isto é, movimentos fisicamente plausíveis e consistentes com a instrução) antes da geração completa do vídeo, introduzindo um loop de amostragem e verificação em tempo de teste. Dado um prompt e uma imagem de referência, nosso método prevê múltiplos planos de movimento candidatos e os classifica usando um verificador visão-linguagem que avalia conjuntamente o alinhamento semântico com a instrução e a plausibilidade física. Para classificar eficientemente os planos de movimento candidatos, renderizamos cada trajetória como um esboço de vídeo leve através da composição de objetos sobre um plano de fundo estático, o que contorna a necessidade de sínteses caras e repetidas baseadas em difusão, enquanto alcança desempenho comparável. Refinamos iterativamente o plano de movimento até que um satisfatório seja identificado, que é então passado para o gerador condicionado por trajetória para síntese final. Experimentos no WorldModelBench e no PhyWorldBench demonstram que nosso método melhora significativamente a qualidade do movimento, o realismo físico e a consistência de longo prazo em comparação com linhas de base competitivas, sendo substancialmente mais eficiente. Nosso estudo de ablação mostra ainda que aumentar o número de trajetórias candidatas melhora consistentemente o desempenho geral.
English
Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.