Planificación con Verificación Guiada por Esbozos para la Generación de Videos Conscientes de la Física
Planning with Sketch-Guided Verification for Physics-Aware Video Generation
November 21, 2025
Autores: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal
cs.AI
Resumen
Los enfoques recientes de generación de vídeo dependen cada vez más de planificar señales de control intermedias, como trayectorias de objetos, para mejorar la coherencia temporal y la fidelidad del movimiento. Sin embargo, estos métodos emplean principalmente planes únicos que suelen limitarse a movimientos simples, o refinamiento iterativo que requiere múltiples llamadas al generador de vídeo, incurriendo en un alto coste computacional. Para superar estas limitaciones, proponemos SketchVerify, un marco de planificación basado en verificación de bocetos que no requiere entrenamiento, mejorando la calidad de la planificación del movimiento con trayectorias más dinámicamente coherentes (es decir, movimientos físicamente plausibles y consistentes con la instrucción) antes de la generación completa del vídeo, mediante la introducción de un bucle de muestreo y verificación en tiempo de prueba. Dado un prompt y una imagen de referencia, nuestro método predice múltiples planes de movimiento candidatos y los clasifica utilizando un verificador visión-lenguaje que evalúa conjuntamente la alineación semántica con la instrucción y la plausibilidad física. Para puntuar eficientemente los planes de movimiento candidatos, representamos cada trayectoria como un boceto de vídeo ligero componiendo objetos sobre un fondo estático, lo que evita la necesidad de una costosa síntesis basada en difusión repetida mientras se alcanza un rendimiento comparable. Refinamos iterativamente el plan de movimiento hasta identificar uno satisfactorio, que luego se pasa al generador condicionado por trayectorias para la síntesis final. Los experimentos en WorldModelBench y PhyWorldBench demuestran que nuestro método mejora significativamente la calidad del movimiento, el realismo físico y la consistencia a largo plazo en comparación con líneas base competitivas, siendo sustancialmente más eficiente. Nuestro estudio de ablación muestra además que escalar el número de trayectorias candidatas mejora consistentemente el rendimiento general.
English
Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.