PhyCo: Обучение управляемым физическим априорным распределениям для генерации движений

Аннотация

Современные диффузионные модели видео успешно синтезируют внешний вид объектов, но по-прежнему испытывают трудности с физической согласованностью: объекты смещаются, столкновения лишены реалистичного отскока, а реакции материалов редко соответствуют их базовым свойствам. Мы представляем PhyCo — фреймворк, который внедряет непрерывный, интерпретируемый и физически обоснованный контроль в генерацию видео. Наш подход интегрирует три ключевых компонента: (i) масштабный набор данных, содержащий более 100 тыс. фотореалистичных симуляционных видео, где трение, упругость, деформация и сила систематически варьируются в различных сценариях; (ii) физически контролируемое дообучение предварительно обученной диффузионной модели с использованием ControlNet, conditioned на пиксельно-выровненных картах физических свойств; и (iii) оптимизацию с подкреплением на основе VLM, где дообученная визуально-языковая модель оценивает сгенерированные видео с помощью целевых физических запросов и предоставляет дифференцируемую обратную связь. Такое сочетание позволяет генеративной модели производить физически согласованные и контролируемые результаты через вариации физических атрибутов — без использования симулятора или реконструкции геометрии на этапе вывода. На бенчмарке Physics-IQ PhyCo значительно улучшает физический реализм по сравнению с сильными базовыми методами, а исследования с участием людей подтверждают более четкий и достоверный контроль над физическими свойствами. Наши результаты демонстрируют масштабируемый путь к созданию физически согласованных, управляемых генеративных моделей видео, способных к обобщению за пределы синтетических сред обучения.

English

Modern video diffusion models excel at appearance synthesis but still struggle with physical consistency: objects drift, collisions lack realistic rebound, and material responses seldom match their underlying properties. We present PhyCo, a framework that introduces continuous, interpretable, and physically grounded control into video generation. Our approach integrates three key components: (i) a large-scale dataset of over 100K photorealistic simulation videos where friction, restitution, deformation, and force are systematically varied across diverse scenarios; (ii) physics-supervised fine-tuning of a pretrained diffusion model using a ControlNet conditioned on pixel-aligned physical property maps; and (iii) VLM-guided reward optimization, where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback. This combination enables a generative model to produce physically consistent and controllable outputs through variations in physical attributes-without any simulator or geometry reconstruction at inference. On the Physics-IQ benchmark, PhyCo significantly improves physical realism over strong baselines, and human studies confirm clearer and more faithful control over physical attributes. Our results demonstrate a scalable path toward physically consistent, controllable generative video models that generalize beyond synthetic training environments.

PhyCo: Обучение управляемым физическим априорным распределениям для генерации движений

PhyCo: Learning Controllable Physical Priors for Generative Motion

Аннотация

Support