PhyGDPO : Optimisation de préférence directe par groupes tenant compte de la physique pour une génération vidéo à partir de texte physiquement cohérente
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
December 31, 2025
papers.authors: Yuanhao Cai, Kunpeng Li, Menglin Jia, Jialiang Wang, Junzhe Sun, Feng Liang, Weifeng Chen, Felix Juefei-Xu, Chu Wang, Ali Thabet, Xiaoliang Dai, Xuan Ju, Alan Yuille, Ji Hou
cs.AI
papers.abstract
Les récents progrès en génération texte-vidéo (T2V) ont permis d'obtenir une bonne qualité visuelle, mais la synthèse de vidéos respectant fidèlement les lois physiques reste un défi non résolu. Les méthodes existantes, principalement basées sur des techniques graphiques ou l'extension de prompts, peinent à généraliser au-delà d'environnements simulés simples ou à acquérir un raisonnement physique implicite. La rareté des données d'entraînement comportant des interactions et phénomènes physiques riches constitue également un problème. Dans cet article, nous introduisons d'abord PhyAugPipe, un pipeline de construction de données vidéo augmentées par la physique, qui exploite un modèle vision-langage (VLM) avec un raisonnement en chaîne de pensée pour collecter un jeu de données d'entraînement à grande échelle, PhyVidGen-135K. Ensuite, nous formulons un cadre théorique de optimisation directe des préférences groupées sensible à la physique, PhyGDPO, qui s'appuie sur le modèle probabiliste groupé de Plackett-Luce pour capturer des préférences holistiques au-delà des comparaisons par paires. Dans PhyGDPO, nous concevons un mécanisme de récompense guidée par la physique (PGR) intégrant des récompenses physiques basées sur VLM pour orienter l'optimisation vers la cohérence physique. Nous proposons également un schéma de référence à commutation LoRA (LoRA-SR) qui élimine la duplication de références gourmande en mémoire pour un entraînement efficace. Les expériences montrent que notre méthode surpasse significativement les méthodes open-source de l'état de l'art sur PhyGenBench et VideoPhy2. Consultez notre page projet à l'adresse https://caiyuanhao1998.github.io/project/PhyGDPO pour plus de résultats vidéo. Notre code, modèles et données seront publiés sur https://github.com/caiyuanhao1998/Open-PhyGDPO.
English
Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO