PhyCo: Apprendimento di Priori Fisici Controllabili per la Generazione di Movimento

Abstract

I moderni modelli di diffusione video eccellono nella sintesi dell'aspetto visivo, ma continuano a lottare con la coerenza fisica: gli oggetti si spostano in modo irrealistico, le collisioni mancano di un rimbalzo credibile e le risposte dei materiali raramente corrispondono alle loro proprietà intrinseche. Presentiamo PhyCo, un framework che introduce un controllo continuo, interpretabile e fisicamente fondato nella generazione video. Il nostro approccio integra tre componenti chiave: (i) un dataset su larga scala di oltre 100.000 video di simulazione fotorealistica in cui attrito, restituzione, deformazione e forza vengono variati sistematicamente in scenari diversificati; (ii) un fine-tuning supervisionato dalla fisica di un modello di diffusione pre-addestrato utilizzando un ControlNet condizionato su mappe di proprietà fisiche allineate a livello di pixel; e (iii) un'ottimizzazione della ricompensa guidata da VLM, in cui un modello visione-linguaggio fine-tuned valuta i video generati tramite query fisiche mirate e fornisce un feedback differenziabile. Questa combinazione consente a un modello generativo di produrre output fisicamente coerenti e controllabili attraverso variazioni negli attributi fisici, senza alcun simulatore o ricostruzione geometrica durante l'inferenza. Sul benchmark Physics-IQ, PhyCo migliora significativamente il realismo fisico rispetto a baseline solide, e studi umani confermano un controllo più chiaro e fedele sugli attributi fisici. I nostri risultati dimostrano un percorso scalabile verso modelli generativi video fisicamente coerenti e controllabili che generalizzano oltre gli ambienti di addestramento sintetici.

English

Modern video diffusion models excel at appearance synthesis but still struggle with physical consistency: objects drift, collisions lack realistic rebound, and material responses seldom match their underlying properties. We present PhyCo, a framework that introduces continuous, interpretable, and physically grounded control into video generation. Our approach integrates three key components: (i) a large-scale dataset of over 100K photorealistic simulation videos where friction, restitution, deformation, and force are systematically varied across diverse scenarios; (ii) physics-supervised fine-tuning of a pretrained diffusion model using a ControlNet conditioned on pixel-aligned physical property maps; and (iii) VLM-guided reward optimization, where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback. This combination enables a generative model to produce physically consistent and controllable outputs through variations in physical attributes-without any simulator or geometry reconstruction at inference. On the Physics-IQ benchmark, PhyCo significantly improves physical realism over strong baselines, and human studies confirm clearer and more faithful control over physical attributes. Our results demonstrate a scalable path toward physically consistent, controllable generative video models that generalize beyond synthetic training environments.

PhyCo: Apprendimento di Priori Fisici Controllabili per la Generazione di Movimento

PhyCo: Learning Controllable Physical Priors for Generative Motion

Abstract

Support