PhyCo: Aprendizaje de Priores Físicos Controlables para Movimiento Generativo

Resumen

Los modernos modelos de difusión de video sobresalen en la síntesis de apariencia pero aún presentan dificultades con la coherencia física: los objetos se desplazan de forma errática, las colisiones carecen de un rebote realista y las respuestas de los materiales rara vez coinciden con sus propiedades subyacentes. Presentamos PhyCo, un marco que introduce un control continuo, interpretable y basado en la física en la generación de video. Nuestro enfoque integra tres componentes clave: (i) un conjunto de datos a gran escala de más de 100.000 videos de simulación fotorrealista donde la fricción, la restitución, la deformación y la fuerza varían sistemáticamente en diversos escenarios; (ii) un ajuste fino supervisado por física de un modelo de difusión preentrenado utilizando una ControlNet condicionada por mapas de propiedades físicas alineados a píxel; y (iii) una optimización de recompensa guiada por un Modelo de Visión y Lenguaje (VLM), donde un modelo de visión y lenguaje ajustado evalúa los videos generados mediante consultas de física específicas y proporciona retroalimentación diferenciable. Esta combinación permite que un modelo generativo produzca resultados físicamente coherentes y controlables mediante variaciones en los atributos físicos, sin necesidad de ningún simulador o reconstrucción geométrica durante la inferencia. En el benchmark Physics-IQ, PhyCo mejora significativamente el realismo físico en comparación con líneas base sólidas, y estudios con humanos confirman un control más claro y fiel sobre los atributos físicos. Nuestros resultados demuestran una vía escalable hacia modelos generativos de video físicamente coherentes y controlables que generalizan más allá de los entornos de entrenamiento sintéticos.

English

Modern video diffusion models excel at appearance synthesis but still struggle with physical consistency: objects drift, collisions lack realistic rebound, and material responses seldom match their underlying properties. We present PhyCo, a framework that introduces continuous, interpretable, and physically grounded control into video generation. Our approach integrates three key components: (i) a large-scale dataset of over 100K photorealistic simulation videos where friction, restitution, deformation, and force are systematically varied across diverse scenarios; (ii) physics-supervised fine-tuning of a pretrained diffusion model using a ControlNet conditioned on pixel-aligned physical property maps; and (iii) VLM-guided reward optimization, where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback. This combination enables a generative model to produce physically consistent and controllable outputs through variations in physical attributes-without any simulator or geometry reconstruction at inference. On the Physics-IQ benchmark, PhyCo significantly improves physical realism over strong baselines, and human studies confirm clearer and more faithful control over physical attributes. Our results demonstrate a scalable path toward physically consistent, controllable generative video models that generalize beyond synthetic training environments.

PhyCo: Aprendizaje de Priores Físicos Controlables para Movimiento Generativo

PhyCo: Learning Controllable Physical Priors for Generative Motion

Resumen

Support