PhyCo: Aprendizado de Priores Físicos Controláveis para Geração de Movimento

Resumo

Os modernos modelos de difusão de vídeo destacam-se na síntese de aparência, mas ainda lutam com a consistência física: objetos desviam-se, colisões carecem de ricochete realista e as respostas dos materiais raramente correspondem às suas propriedades subjacentes. Apresentamos o PhyCo, uma estrutura que introduz controlo contínuo, interpretável e fisicamente fundamentado na geração de vídeo. A nossa abordagem integra três componentes-chave: (i) um conjunto de dados em larga escala com mais de 100 mil vídeos de simulação fotorrealista onde o atrito, a restituição, a deformação e a força são sistematicamente variados em diversos cenários; (ii) afinação supervisionada por física de um modelo de difusão pré-treinado usando um ControlNet condicionado em mapas de propriedades físicas alinhados por píxel; e (iii) otimização de recompensa guiada por VLM, onde um modelo visão-linguagem afinado avalia vídeos gerados com consultas físicas específicas e fornece *feedback* diferenciável. Esta combinação permite que um modelo generativo produza resultados fisicamente consistentes e controláveis através de variações em atributos físicos - sem qualquer simulador ou reconstrução geométrica durante a inferência. No *benchmark* Physics-IQ, o PhyCo melhora significativamente o realismo físico em comparação com linhas de base robustas, e estudos com humanos confirmam um controlo mais claro e fiel sobre os atributos físicos. Os nossos resultados demonstram um caminho escalável para modelos generativos de vídeo fisicamente consistentes e controláveis que generalizam para além de ambientes de treino sintéticos.

English

Modern video diffusion models excel at appearance synthesis but still struggle with physical consistency: objects drift, collisions lack realistic rebound, and material responses seldom match their underlying properties. We present PhyCo, a framework that introduces continuous, interpretable, and physically grounded control into video generation. Our approach integrates three key components: (i) a large-scale dataset of over 100K photorealistic simulation videos where friction, restitution, deformation, and force are systematically varied across diverse scenarios; (ii) physics-supervised fine-tuning of a pretrained diffusion model using a ControlNet conditioned on pixel-aligned physical property maps; and (iii) VLM-guided reward optimization, where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback. This combination enables a generative model to produce physically consistent and controllable outputs through variations in physical attributes-without any simulator or geometry reconstruction at inference. On the Physics-IQ benchmark, PhyCo significantly improves physical realism over strong baselines, and human studies confirm clearer and more faithful control over physical attributes. Our results demonstrate a scalable path toward physically consistent, controllable generative video models that generalize beyond synthetic training environments.

PhyCo: Aprendizado de Priores Físicos Controláveis para Geração de Movimento

PhyCo: Learning Controllable Physical Priors for Generative Motion

Resumo

Support