PhyGDPO: Физически осознанная групповая оптимизация прямых предпочтений для физически согласованной генерации видео по тексту
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
December 31, 2025
Авторы: Yuanhao Cai, Kunpeng Li, Menglin Jia, Jialiang Wang, Junzhe Sun, Feng Liang, Weifeng Chen, Felix Juefei-Xu, Chu Wang, Ali Thabet, Xiaoliang Dai, Xuan Ju, Alan Yuille, Ji Hou
cs.AI
Аннотация
Последние достижения в области генерации видео по текстовому описанию (Text-to-Video, T2V) позволили добиться высокого визуального качества, однако синтез видео, достоверно следующих законам физики, остается нерешенной задачей. Существующие методы, основанные преимущественно на графике или расширении промптов, плохо обобщаются за пределы простых симулированных сред или не способны к неявному физическому анализу. Проблемой также является нехватка обучающих данных с богатыми физическими взаимодействиями и явлениями. В данной статье мы сначала представляем конвейер создания видео-данных с физическим обогащением PhyAugPipe, который использует визион-языковую модель (VLM) с цепочечным рассуждением для сбора крупномасштабного набора обучающих данных PhyVidGen-135K. Затем мы формулируем принципиальную структуру Physics-aware Groupwise Direct Preference Optimization (PhyGDPO), основанную на групповой вероятностной модели Плэккетта-Льюса для учета холистических предпочтений, выходящих за рамки парных сравнений. В рамках PhyGDPO мы разрабатываем схему Physics-Guided Rewarding (PGR), которая внедряет физические вознаграждения на основе VLM для направления оптимизации в сторону физической согласованности. Мы также предлагаем схему LoRA-Switch Reference (LoRA-SR), которая устраняет необходимость в дублировании эталонных моделей, требующем больших объемов памяти, для эффективного обучения. Эксперименты показывают, что наш метод значительно превосходит современные открытые методы на тестовых наборах PhyGenBench и VideoPhy2. Дополнительные видео-результаты доступны на странице проекта: https://caiyuanhao1998.github.io/project/PhyGDPO. Наш код, модели и данные будут опубликованы по адресу: https://github.com/caiyuanhao1998/Open-PhyGDPO.
English
Recent advances in text-to-video (T2V) generation have achieved good visual quality, yet synthesizing videos that faithfully follow physical laws remains an open challenge. Existing methods mainly based on graphics or prompt extension struggle to generalize beyond simple simulated environments or learn implicit physical reasoning. The scarcity of training data with rich physics interactions and phenomena is also a problem. In this paper, we first introduce a Physics-Augmented video data construction Pipeline, PhyAugPipe, that leverages a vision-language model (VLM) with chain-of-thought reasoning to collect a large-scale training dataset, PhyVidGen-135K. Then we formulate a principled Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, framework that builds upon the groupwise Plackett-Luce probabilistic model to capture holistic preferences beyond pairwise comparisons. In PhyGDPO, we design a Physics-Guided Rewarding (PGR) scheme that embeds VLM-based physics rewards to steer optimization toward physical consistency. We also propose a LoRA-Switch Reference (LoRA-SR) scheme that eliminates memory-heavy reference duplication for efficient training. Experiments show that our method significantly outperforms state-of-the-art open-source methods on PhyGenBench and VideoPhy2. Please check our project page at https://caiyuanhao1998.github.io/project/PhyGDPO for more video results. Our code, models, and data will be released at https://github.com/caiyuanhao1998/Open-PhyGDPO