PhyGDPO: 物理整合的なテキスト動画生成のための物理法則を考慮したグループ単位直接選好最適化
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
December 31, 2025
著者: Yuanhao Cai, Kunpeng Li, Menglin Jia, Jialiang Wang, Junzhe Sun, Feng Liang, Weifeng Chen, Felix Juefei-Xu, Chu Wang, Ali Thabet, Xiaoliang Dai, Xuan Ju, Alan Yuille, Ji Hou
cs.AI
要旨
テキストからビデオ(T2V)生成における最近の進展は良好な視覚的品質を達成しているが、物理法則に忠実に従うビデオの合成は未解決の課題である。既存のグラフィックスベースやプロンプト拡張を主とした手法は、単純なシミュレーション環境を超えた一般化や暗黙的な物理推論の学習に苦戦している。豊富な物理的相互作用や現象を含む学習データの不足も問題となっている。本論文ではまず、思考連鎖推論を備えた視覚言語モデル(VLM)を活用して大規模学習データセットPhyVidGen-135Kを収集する物理拡張ビデオデータ構築パイプライン「PhyAugPipe」を提案する。次に、ペアワイズ比較を超えた全体的な選好を捉えるために、グループ単位のプラケット・ルース確率モデルに基づく原理的な物理認識グループ単位直接選好最適化フレームワーク「PhyGDPO」を定式化する。PhyGDPOでは、VLMベースの物理報酬を埋め込んで物理的一貫性に向けた最適化を導く「物理誘導報酬(PGR)」スキームを設計する。さらに、メモリ負荷の高い参照モデルの複製を排除する効率的な訓練手法「LoRA-Switch Reference(LoRA-SR)」スキームを提案する。実験結果では、PhyGenBenchおよびVideoPhy2において、我々の手法が最先端のオープンソース手法を大幅に上回る性能を示す。詳細なビデオ結果はプロジェクトページ(https://caiyuanhao1998.github.io/project/PhyGDPO)で確認可能。コード、モデル、データはhttps://github.com/caiyuanhao1998/Open-PhyGDPOで公開予定。
English
Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO